BERT
編輯Bidirectional Encoder Representations from Transformers (BERT) 是一種基于變壓器的機器學習技術,用于自然語言處理 (NLP) 預訓練,由 Google 開發。 BERT 由 Jacob Devlin 和他的 Google 同事于 2018 年創建并發布。 2019 年,谷歌宣布已開始在其搜索引擎中使用 BERT,到 2020 年底,它幾乎在所有英語查詢中都使用了 BERT。 2020 年的一項文獻調查得出結論,在一年多的時間里,BERT 已成為 NLP 實驗中無處不在的基線,超過 150 篇研究出版物分析和改進了該模型。
原始的英文 BERT 有兩種模型:(1) BERTBASE:12 個編碼器和 12 個雙向自注意頭,以及 (2) BERTLARGE:24 個編碼器和 16 個雙向自注意頭。 兩種模型都是根據從 BooksCorpus 中提取的 8 億單詞和英語維基百科中的 25 億單詞的未標記數據進行預訓練的。
架構
編輯BERT 的核心是一個變換器語言模型,具有可變數量的編碼器層和自注意力頭。 該架構幾乎與 Vaswani 等人的原始轉換器實現相同。 (2017)。
BERT 接受了兩項任務的預訓練:語言建模(15% 的標記被屏蔽,并且 BERT 被訓練從上下文中預測它們)和下一句預測(BERT 被訓練來預測所選擇的下一句話是否可能給出xxx句話) . 作為訓練過程的結果,BERT 學習了單詞的上下文嵌入。 經過計算量大的預訓練后,可以使用較少的資源在較小的數據集上對 BERT 進行微調,以優化其在特定任務上的性能。
性能
編輯當 BERT 發布時,它在許多自然語言理解任務上取得了最先進的性能:
- GLUE(通用語言理解評估)任務集(由 9 個任務組成)
- SQuAD(斯坦福問答數據集)v1.1 和 v2.0
- SWAG(對抗性世代的情況)
- 情感分析:基于 BERT 的情感分類器在多種語言中取得了顯著的性能
分析
編輯BERT 在這些自然語言理解任務上表現出色的原因尚不清楚。 目前的研究主要集中在調查 BERT 輸出背后的關系,作為精心選擇的輸入序列的結果,通過探測分類器分析內部向量表示,以及注意力權重表示的關系。
歷史
編輯BERT 起源于預訓練上下文表示,包括半監督序列學習、生成預訓練、ELMo 和 ULMFit。 與以前的模型不同,BERT 是一種深度雙向、無監督的語言表示,僅使用純文本語料庫進行預訓練。 word2vec 或 GloVe 等無上下文模型為詞匯表中的每個單詞生成單個單詞嵌入表示,其中 BERT 會考慮給定單詞每次出現的上下文。 例如,盡管在 He is running a company 和 He is running a marathon 這兩個句子中,running 的向量都具有相同的 word2vec 向量表示,而 BERT 將根據句子提供不同的上下文嵌入。
2019 年 10 月 25 日,谷歌搜索宣布他們已開始將 BERT 模型應用于美國境內的英語搜索查詢。 2019 年 12 月 9 日,有報道稱 BERT 已被谷歌搜索用于 70 多種語言。 2020 年 10 月,幾乎所有基于英語的查詢都由 BERT 處理。
識別
編輯描述 BERT 的研究論文在計算語言學協會 (NAACL) 北美分會 2019 年年會上獲得最佳長篇論文獎。
內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/189803/