SuperGLUE！自然語言處理模型的新標準

摘要：自然語言處理的評分標準從GLUE到SGLUE

自然語言處理(NLP),是機器學習領域的一個分支,專門研究如何讓機器理解人類語言和相關文本,也是發展通用人工智慧技術亟需攻克的核心難題之一。

紐約大學、華盛頓大學、劍橋大學和 Facebook AI 將聯合推出一套新的自然語言處理(NLP)評估基準,名為 SuperGLUE,全稱是 Super General-Purpose Language Understanding。該系統是現有 GLUE 基準的升級版(所以前面加上了 Super)。研究人員刪除了原本 11 項任務中的 9 項,更新了剩下 2 項,同時加入了 5 項新的評估基準。新版本將更契合未來 NLP 技術的發展方向,難度也是大幅增加,更具挑戰性。

什麼是GLUE？

實現NLP的方法有很多，主流的方法大多圍繞多任務學習和語言模型預訓練展開，由此孕育出很多種不同模型，比如BERT，MT-DNN，ALICE和Snorkel MeTaL等等。在某個模型的基礎上，研究團隊還可以借鑒其它模型的精華或者直接結合兩者。

為了更好地訓練模型，同時更準確地評估和分析其表現，紐約大學，華盛頓大學和DeepMind的NLP研究團隊在2018年推出了通用語言理解評估基準（GLUE），其中包含11項常見NLP任務，都是取自認可度相當高的NLP數據集，最大的語料庫規模超過40萬條，而且種類多變，涉及到自然語言推理，情感分析，閱讀理解和語義相似性等多個領域。

雖然GLUE基準才發布一年，已經有很多NLP模型在特定任務中超過了人類基準，尤其是在QQP，MRPC和QNLI三項任務。目前綜合分數最高的是微軟提交的MT-DNN ++模型，其核心是多任務深度神經網絡（MT-DNN）模型，並且在文本編碼層整合了BERT。僅次於它的是阿里巴巴達摩院NLP團隊的ALICE大型模型和斯坦福的Snorkel MeTaL模型。得益於BERT和GPT模型的引入，模型在很多GLUE任務的得分都已經接近人類基準，只有2-3個任務與人類有明顯差距。

從GLUE到SuperGLUE（Liquidity Risk）

新的SuperGLUE遵從了GLUE的基本原則：為通用語言理解技術的進步提供通俗，但又具有挑戰性的基準。在製定這個新基準時，研究人員先在NLP社群公開徵集任務提案，獲得了大約30份提案，隨後按照如下標準篩選：

任務本質:測試系統理解英語的能力。

任務難度:超出當前最先進模型的能力,但是人類可以解決。

可評估性:具備自動評判機制,並且能夠準確對應人類的判斷或表現。

公開資料:擁有公開的訓練資料。

任務格式:SuperGLUE 輸入值的複雜程度得到了提升,允許出現複雜句子,段落和文章等。

任務許可:所用資料必須獲得研究和重新分發的許可。

轉貼自：搜狐

若喜歡本文，請關注我們的臉書 Please Like our Facebook Page： Big Data In Finance

SuperGLUE！自然語言處理模型的新標準

摘要：自然語言處理的評分標準從GLUE到SGLUE

什麼是GLUE？

從GLUE到SuperGLUE（Liquidity Risk）

留下你的回應

以訪客張貼回應

回應

釘選列表

喜愛列表

Web Services

YOU MAY BE INTERESTED

Popular Tags

	今日	813
	昨日	2113
	本週	7220
	本月	6104
	總訪客量	2705857

摘要： 自然語言處理的評分標準從GLUE到SGLUE

什麼是GLUE？

從GLUE到SuperGLUE（Liquidity Risk）

留下你的回應

以訪客張貼回應

回應

釘選列表

喜愛列表

Web Services

YOU MAY BE INTERESTED

Popular Tags

摘要：自然語言處理的評分標準從GLUE到SGLUE