語言與知識技術的相關研究進展,影響著人工智能理解世界的方式。9月15日,一年一度的科技圈盛會百度世界2020大會于線上召開,總臺央視主持人康輝,與百度創(chuàng)始人、董事長兼首席執(zhí)行官(CEO)李彥宏的“虛擬人”在千萬觀眾面前亮相,不僅動作自然、栩栩如生,更與真人進行多輪流暢交互,引發(fā)網(wǎng)友驚嘆,滿足了人們對未來時代“智能管家”的許多想象。
而為虛擬人理解世界、理解語言起到關鍵作用的,正是語言與知識技術。在當天下午舉辦的百度大腦分論壇上,來自百度的杰出架構師、文心(ERNIE)負責人孫宇登臺演說,介紹知識增強語義理解框架文心(ERNIE)在語言理解、語言生成和跨模態(tài)語義理解等能力上的重大突破。此外,百度大腦提出了基于多流機制的預訓練語言生成技術ERNIE-GEN和知識增強跨模態(tài)語義理解技術ERNIE-ViL,其中,ERNIE-ViL首次將場景圖知識融入到跨模態(tài)的預訓練模型中。孫宇還介紹,百度文心語義理解技術平臺可為企業(yè)提供一整套NLP定制與應用能力,目前已累計支持2萬余名開發(fā)者,覆蓋金融、通信、教育、電商等行業(yè)。

百度杰出架構師、文心(ERNIE)負責人孫宇
語義理解核心技術升級,文心多項NLP技術全球領先
據(jù)了解,知識增強語義理解框架文心(ERNIE)于去年發(fā)布,大幅提升機器理解語言的水平,更在國際權威的通用語言理解評估基準 GLUE上首次突破 90大關,超越人類三個點,獲得全球第一。文心的創(chuàng)新點在于,將大數(shù)據(jù)預訓練與多源豐富知識相結合,持續(xù)學習海量文本中詞匯、結構、語義等方面的知識,實現(xiàn)模型效果不斷進化,如同人類持續(xù)學習一般。
分論壇上,孫宇介紹,百度文心語義理解技術包括基于預訓練的語義表示、文章理解、文本匹配、文本生成等技術,以及可識別理解法律、金融文本的領域語義理解技術,并布局了跨模態(tài)、多語言、圖理解等前沿技術,形成了涵蓋基礎、應用、領域、拓展四大層面的全景圖。
在常識知識、多粒度語言知識、場景圖知識等多源知識學習的支持下,文心語義理解能力、語言生成能力和多模態(tài)語義理解能力都得到了進一步提升和拓展。同時,基于海量數(shù)據(jù),百度大腦構造了多粒度自編碼任務和指代消解任務,推動文心在情感分析、文本分類、閱讀理解等八項典型自然語言理解任務效果上獲得進一步顯著提升。
自然語言生成方面,文心提出了基于多流機制的預訓練語言生成技術:ERNIE-GEN,在摘要生成、問題生成、多輪問答等自然語言生成任務上效果突出。同時,文心設計了多流注意力機制,融合逐詞生成和逐片段生成學習目標,學習語言中多粒度知識后,全面刷新了語言生成任務的世界最好效果,在學術界和產(chǎn)業(yè)界具備非常大的研究價值與應用價值。
文心更在多模態(tài)語義理解上取得重大突破,視覺推理技術ERNIE-ViL可以通過物體識別體育運動圖片中的運動場地及圖中人物,進一步區(qū)分人員衣服顏色,根據(jù)知識判斷穿出裁判和運動員的身份。理解細粒度語義的能力在這個推理的任務中發(fā)揮了關鍵的作用。ERNIE-ViL是業(yè)界首次將場景圖知識融入到跨模態(tài)的預訓練模型中,已廣泛應用于工業(yè)場景。
能力平臺化,百度大腦文心實現(xiàn)語義理解技術工業(yè)級應用落地
在人工智能技術落地的進程中,實際需求往往呈現(xiàn)出應用復雜、成本高企、耗時過長、可迭代性差等痛點。對此,文心語義理解技術平臺應運而生。
孫宇介紹,文心平臺基于領先的語義理解技術,可為企業(yè)提供一整套NLP定制與應用能力,讓開發(fā)者更加簡單高效地定制企業(yè)級NLP模型。在文心平臺化服務中,提供了針對數(shù)據(jù)處理、模型訓練、模型評估、模型部署等環(huán)節(jié)的“工具箱”,一站式滿足開發(fā)者各類應用需求。此外,文心還提供了零門檻AI開發(fā)平臺EasyDL和全功能AI開發(fā)平臺BML兩種平臺支持方式。
一站式的NLP開發(fā)能力,既可以滿足開發(fā)者的需求,也降低了定制開發(fā)的成本。在落地實踐中,傳統(tǒng)產(chǎn)品需要5100條數(shù)據(jù)標注以訓練模型,而文心平均僅需220條,降低了90%的數(shù)據(jù)標注量。同時,文心通過預訓練模型,降低了90%以上的算力投入,及86%的模型開發(fā)時長,周期從一周縮短為一天,這對企業(yè)開發(fā)者更加友好。
文心的另一大優(yōu)勢在于經(jīng)過真實場景淬煉。據(jù)介紹,文心已應用于百度內(nèi)部包括搜索引擎、推薦系統(tǒng)、智能音箱、智能客服等幾十條產(chǎn)品線,其工業(yè)級應用能力已得到驗證。目前,文心已經(jīng)將NLP技術輸送到金融、通信、教育、電商等行業(yè),顯著提升了這些企業(yè)智能應用的效果和效率。
作為“人工智能皇冠上的明珠”,NLP領域向來是人工智能技術研發(fā)與落地實踐的前沿,在新基建的大潮下,也催生出大量自然語言處理方面的需求。從2010年百度成立自然語言處理部算起,在NLP從技術和產(chǎn)業(yè)上全面布局已經(jīng)走過整整十個年頭,不僅技術上形成先發(fā)優(yōu)勢,更完成了產(chǎn)業(yè)落地的絕對領先,致力于將AI技術下沉到千行萬業(yè),讓人和機器互相理解的圖景全面到來,造就更智能的未來時代。