與非網(wǎng) 9 月 12 日訊,去年是 NLP 的收獲大年,模型預訓練技術終于被批量成功應用于多項 NLP 任務。之前搞 NLP 的人一直羨慕搞 CV 的人,在 ImageNet 上訓練好的模型,居然拿到各種任務里用都非常有效?,F(xiàn)在情形有點逆轉了。搞 CV 的人開始羨慕搞 NLP 的人了。
而就在 BERT 發(fā)布之后,點燃了 NLP 各界的歡騰,各路神仙開始加班加點各顯神通,很多相關工作被發(fā)表出來。目前,BERT 使計算機能夠更準確地理解語音,并實時智能地響應,使聊天機器人大大提高智能化。
首先,我們先簡單回顧一下 NLP 的歷史。在上世紀 80 年代之前,大多數(shù) NLP 系統(tǒng)以規(guī)則為基礎,根源于美國語言學家 Noam Chomsky 的工作,他認為語法規(guī)則可用于理解語義關系,因而引導機器理解語音。然而到了 80 年代后期,機器學習算法變得越來越流行,開始從規(guī)則向統(tǒng)計模型轉變。隨著 Word2vec、GloVe 和 FastText 等單詞嵌入的推出,2013 年迎來了 NLP 的下一大飛躍。
在讀取大量文本并分析每個單詞在數(shù)據(jù)集中的不同上下文中如何出現(xiàn)后,單詞嵌入試圖將單詞的“含義”封裝在向量中。其想法是,含義相似的單詞會有相似的向量。這第一代單詞嵌入的最大缺點是,每個單詞只有一個向量,實際上它可能有多個含義(比如 Mercury 有行星、金屬、汽車或羅馬神等意思)。這些缺點歸咎于這一事實:由于效率原因,早期的單詞嵌入模型用小型神經網(wǎng)絡來訓練(淺訓練)。然而谷歌發(fā)布 BERT 后,我們確實處于拐點。
BERT 如此驚艷的原因。BERT 是一種上下文模型,這意味著基于句子中所用單詞的上下文生成單詞嵌入,因此一個單詞可以有多個嵌入。BERT 支持遷移學習(transfer learning)。這被稱為“NLP 的 ImageNet 時刻。”BERT 可以針對一小組特定領域數(shù)據(jù)低成本、快速度地加以微調,可以獲得比從頭開始用同樣這些特定領域數(shù)據(jù)集來訓練更準確的結果。
摩爾定律依然適用。幫助取得 BERT 等進步,需要計算機的速度和性能不斷提高,尤其是英偉達的 GPU 和谷歌的 TPU。
由于計算的現(xiàn)狀和成本,早期的單詞嵌入模型不得不很高效,BERT 效率低得多,但計算能力完全趕了上來。
英偉達剛宣布它支持 BERT,現(xiàn)在聲稱其 AI 平臺擁有最出色的 BERT 訓練功能。此外,英偉達聲稱可以獲得很快速的響應,實時聊天應用中需要快速響響應。并且,該公司已制定了初創(chuàng)加速計劃,幫助對話式 AI 初創(chuàng)公司。
與非網(wǎng)整理自網(wǎng)絡!