
8月30日,阿里云宣布正式推出全棧智能計(jì)算解決方案“飛天智算平臺(tái)”,并啟動(dòng)兩座超大規(guī)模智算中心,為各類(lèi)科研和智能企業(yè)機(jī)構(gòu)提供高效、開(kāi)放、綠色的智能計(jì)算服務(wù)。
其中,在AI開(kāi)發(fā)層,阿里靈杰大數(shù)據(jù)AI一體化平臺(tái)提供全流程的開(kāi)發(fā)和運(yùn)維服務(wù)。尤其在模型訓(xùn)練和推理性能、大數(shù)據(jù)與AI工程能力方面,憑借技術(shù)領(lǐng)先性和豐富落地實(shí)踐,成為區(qū)別傳統(tǒng)AI集群的獨(dú)特優(yōu)勢(shì)所在。
本文基于阿里云智能AI產(chǎn)品總監(jiān)黃博遠(yuǎn)在阿里云飛天智算平臺(tái)發(fā)布會(huì)上《AI Power · 智能新前沿》的演講梳理成文,將圍繞大模型應(yīng)用趨勢(shì)、AI工程化、軟硬件結(jié)合的智能計(jì)算應(yīng)用案例等話(huà)題作詳細(xì)介紹。
演講嘉賓|黃博遠(yuǎn)
本文來(lái)源阿里云飛天智算平臺(tái)發(fā)布會(huì)演講
如今,人工智能(AI)在各行各業(yè)里得到非常多的應(yīng)用,并且開(kāi)始探索生物學(xué)、化學(xué)、物理學(xué)等基礎(chǔ)科學(xué)的知識(shí),一如此前AI學(xué)習(xí)理解圖像、聲音和語(yǔ)言。
AI依賴(lài)于計(jì)算,同時(shí)今天AI也反過(guò)來(lái)去提升傳統(tǒng)意義上的科學(xué)計(jì)算的效率。無(wú)論是新藥物研發(fā)、新材料生成、還是自動(dòng)駕駛,我們相信都將迎來(lái)新的革命,這些都是十多年前認(rèn)為遙不可及的。
兩股新動(dòng)力將人工智能應(yīng)用推到新高度
我們認(rèn)為有兩股新動(dòng)力將把人工智能的應(yīng)用推向新的高度:具備泛化能力的預(yù)訓(xùn)練模型和數(shù)據(jù)中心級(jí)的智能算力。

1.具備泛化能力的預(yù)訓(xùn)練模型
相信在座各位經(jīng)常聽(tīng)到一些相關(guān)報(bào)道,比如“哪項(xiàng)AI能力超越了人類(lèi)的認(rèn)知水平”之類(lèi)。其實(shí)這僅僅揭示了AI和預(yù)訓(xùn)練大模型能力的冰山一角。預(yù)訓(xùn)練大模型,尤其是多模態(tài)大模型,有三個(gè)核心優(yōu)勢(shì)。
它們具備非常好的“泛化能力”,因?yàn)橛?xùn)練過(guò)程使用到大量模態(tài)數(shù)據(jù),因此具備通用性。與人類(lèi)感受和認(rèn)識(shí)世界的過(guò)程類(lèi)似,今天在座的各位耳朵里聽(tīng)著我們演講的內(nèi)容,眼睛在看著屏幕,有時(shí)還會(huì)用手機(jī)或電腦查詢(xún)相關(guān)資料,這個(gè)過(guò)程就是多模態(tài)認(rèn)知理解的過(guò)程。一旦具備多模態(tài)的學(xué)習(xí)能力,模型認(rèn)知水平就會(huì)變強(qiáng),能在更多行業(yè)得到高效利用。
其次,從參與者視角來(lái)看,預(yù)訓(xùn)練大模型能大幅降低制造高質(zhì)量模型的門(mén)檻。回想一下,從零開(kāi)始制造一個(gè)生產(chǎn)級(jí)的大模型需要怎樣的投入?海量數(shù)據(jù)采集、數(shù)據(jù)工程、神經(jīng)網(wǎng)絡(luò)、模型訓(xùn)練……整套流程走完,出來(lái)的模型效果可能并不好,還需要無(wú)數(shù)次調(diào)整。而今天預(yù)訓(xùn)練大模型給我們提供了一個(gè)巨人的肩膀。
大家可以站在這個(gè)巨人肩膀上,依托大模型,引入特定領(lǐng)域的“小數(shù)據(jù)”,就能獲得一個(gè)具備領(lǐng)域知識(shí)且效果非常好的模型。這就好比,如果我們找一個(gè)數(shù)學(xué)家?guī)兔λ阗~,他只需要了解基本的算賬規(guī)則,很快就能算完。但如果找一個(gè)沒(méi)學(xué)過(guò)數(shù)學(xué)的人來(lái)算,可能就遙遙無(wú)期了。
第三個(gè)特點(diǎn),從整個(gè)產(chǎn)業(yè)的角度講,基于大模型的AI研發(fā)范式是更加經(jīng)濟(jì)環(huán)保的。當(dāng)我們集中力量訓(xùn)練出一系列大模型,讓產(chǎn)業(yè)內(nèi)的從業(yè)者基于大模型在自己的領(lǐng)域做更精細(xì)化的訓(xùn)練,這樣一些通用的計(jì)算就不需要被反反復(fù)復(fù)執(zhí)行,我們就能節(jié)省非常多資源。這就像熱能廠出現(xiàn)以后,大家都不需要自己在家生爐子了,在家可以直接吹到暖氣,如果溫度不合適就自己控制閥門(mén)獲得喜歡的溫度。所以我們說(shuō),大模型的模式是面向未來(lái)的AI研發(fā)范式。
2.數(shù)據(jù)中心級(jí)的智能算力
不僅僅是預(yù)訓(xùn)練大模型,當(dāng)下很多人工智能模型的生成過(guò)程是非常復(fù)雜的。算力依然是決定AI能力上限的關(guān)鍵因素。數(shù)據(jù)中心級(jí)的智能算力,通過(guò)軟硬一體的聯(lián)合優(yōu)化,能把我們從最底層硬件,到網(wǎng)絡(luò)、系統(tǒng)、框架、再到最上邊的算法,層層聯(lián)合優(yōu)化,形成極致的算力優(yōu)化效果,使得計(jì)算速度得到接近百萬(wàn)倍的提升。可以說(shuō),超級(jí)的智能算力是人工智能越來(lái)越強(qiáng)大的基礎(chǔ)設(shè)施,是推動(dòng)各行各業(yè)走向智能化的驅(qū)動(dòng)引擎。
如何讓每個(gè)AI創(chuàng)新者擁有這些能力?
剛才介紹了兩種驅(qū)動(dòng)力,可是我們每一位開(kāi)發(fā)者能夠擁有這樣的驅(qū)動(dòng)力嗎?其實(shí)橫亙?cè)陂_(kāi)發(fā)者、創(chuàng)新者和剛才的兩種驅(qū)動(dòng)力之間的,還有很多的障礙。
首先是算力消耗。以我們耳熟能詳?shù)恼Z(yǔ)言類(lèi)大模型GPT-3為例,高達(dá)1750億個(gè)參數(shù),訓(xùn)練這樣的模型消耗的資源,相當(dāng)于開(kāi)一輛汽車(chē),從地球開(kāi)到月球往返一次的能耗費(fèi)用。這個(gè)例子還只計(jì)算了資源的部分,其實(shí)這輛“車(chē)”本身也造價(jià)不菲,大家都知道異構(gòu)計(jì)算的底層硬件非常昂貴,一般的開(kāi)發(fā)者創(chuàng)新者,很難用得起這樣的資源。
人才和工具鏈也是挑戰(zhàn)。在AI整個(gè)創(chuàng)新過(guò)程當(dāng)中,人才也是非常非常重要的一種資源。在這個(gè)領(lǐng)域,我們既需要具備一定的領(lǐng)域知識(shí),還要懂AI、還要懂?dāng)?shù)據(jù)技術(shù),這類(lèi)人才現(xiàn)在無(wú)疑是非常寶貴的。此外,我們?cè)?jīng)針對(duì)AI開(kāi)發(fā)做過(guò)一個(gè)調(diào)研,如果完整走一遍AI研發(fā)端到端的流程,大概需要使用到多少工具或者產(chǎn)品?結(jié)果非常驚人,至少12種??上攵?,整個(gè)工作鏈有多復(fù)雜。
AI 工程化最佳實(shí)踐:
基于阿里云訓(xùn)練出全球最大預(yù)訓(xùn)練模型M6
剛才講到達(dá)摩院的預(yù)訓(xùn)練大模型M6。其實(shí)M6的生產(chǎn)過(guò)程本身就是解決上述挑戰(zhàn)的典型例子。M6的參數(shù)規(guī)模達(dá)到了10萬(wàn)億,是全球最大的預(yù)訓(xùn)練模型。與傳統(tǒng)AI模型相比,大模型擁有成百上千倍的神經(jīng)原數(shù)量,經(jīng)常表現(xiàn)出像人類(lèi)一樣的舉一反三的學(xué)習(xí)能力。因此,大模型普遍被認(rèn)為是未來(lái)的基礎(chǔ)模型,會(huì)成為下一代AI基礎(chǔ)設(shè)施。下面我們看看這個(gè)大模型到底怎么來(lái)的?

首先來(lái)看資源問(wèn)題。M6基于阿里云高效的云原生機(jī)器學(xué)習(xí)平臺(tái)PAI進(jìn)行訓(xùn)練。PAI依托豐富的場(chǎng)景,包括服務(wù)阿里巴巴內(nèi)部和阿里云上客戶(hù)的諸多場(chǎng)景,錘煉了超大規(guī)模分布式訓(xùn)練的最佳實(shí)踐,并通過(guò)PAI-EPL分布式訓(xùn)練框架對(duì)外提供訓(xùn)練加速能力。PAI-EPL框架具備豐富的分布式訓(xùn)練架構(gòu),包括數(shù)據(jù)并行,模型并行,流水并行等。最關(guān)鍵的,AI模型訓(xùn)練是一個(gè)反復(fù)迭代的計(jì)算過(guò)程,PAI-EPL框架可以在迭代過(guò)程當(dāng)中,自動(dòng)地幫助使用者尋找合適的并行方式,在不同階段對(duì)癥下藥。這樣能夠帶來(lái)接近線(xiàn)性的分布式加速能力,大幅降低超大規(guī)模模型的訓(xùn)練成本。

如果說(shuō)訓(xùn)練是一次性的或者周期性的,那么推理可能每時(shí)每刻都在發(fā)生,當(dāng)模型真正投入到日常應(yīng)用中去,就離不開(kāi)推理。PAI-Blade可以提供一站式通用推理優(yōu)化工具。簡(jiǎn)單講,它通過(guò)模型壓縮算法,把模型變小再變小之后,模型的承載效率會(huì)變高。但是這個(gè)變小的過(guò)程,也非常有技術(shù)含量。模型在變小的過(guò)程中,效果不能變差,準(zhǔn)確度不能有損耗。
此外我們結(jié)合阿里巴巴自研的AI編譯器,自動(dòng)針對(duì)目標(biāo)環(huán)境去進(jìn)行優(yōu)化。目標(biāo)環(huán)境可能是各種各樣的異構(gòu)硬件資源,AI編譯器可以把整個(gè)效率推升到極致,底層支持CPU、GPU、以及含光、海光等硬件。作為通用的推理優(yōu)化工具,除了性能上有提升,更關(guān)鍵的是易用性,我們希望通過(guò)PAI-Blade工具,能將優(yōu)化過(guò)程對(duì)用戶(hù)透明,盡量避免用戶(hù)修改模型代碼,提升便利性。
大數(shù)據(jù)AI一體化平臺(tái):
支撐AI研發(fā)全生命周期
這里我們解決了機(jī)器資源的問(wèn)題、訓(xùn)練性能和推理性能問(wèn)題,下一個(gè)問(wèn)題是如何提升數(shù)據(jù)科學(xué)家的工作效率。阿里云建立了大數(shù)據(jù)AI一體化平臺(tái),一站式支撐整個(gè)AI研發(fā)的生命周期。
今天,隨著AI技術(shù)的增強(qiáng),AI研發(fā)效率的問(wèn)題變得越來(lái)越復(fù)雜和嚴(yán)峻。放在很多年前,我們用AI解決哪些問(wèn)題?最典型的就是文字識(shí)別,解決這類(lèi)問(wèn)題只涉及幾種數(shù)據(jù),一堆照片、拍下來(lái)的手寫(xiě)文字、以及兩者間的對(duì)應(yīng)關(guān)系,齊了??梢哉f(shuō)在那個(gè)時(shí)代,大家很難感受到對(duì)大數(shù)據(jù)+AI一體化的平臺(tái)的需求。現(xiàn)在呢,我們?cè)谟肁I解決智能搜索、智能推薦、自動(dòng)駕駛、科學(xué)計(jì)算、智能交互等等問(wèn)題,而這些場(chǎng)景需要這樣哪些數(shù)據(jù)呢?需要把數(shù)據(jù)倉(cāng)庫(kù)當(dāng)中代表著認(rèn)知智能的結(jié)構(gòu)化數(shù)據(jù)和數(shù)據(jù)湖里邊代表著這些感知智能的(例如視覺(jué)、語(yǔ)音等等)數(shù)據(jù),兩類(lèi)數(shù)據(jù)綜合在一起使用,才能解決最終的業(yè)務(wù)問(wèn)題,整個(gè)過(guò)程十分復(fù)雜。

我們通過(guò)阿里靈杰大數(shù)據(jù)AI平臺(tái),支撐了從數(shù)據(jù)標(biāo)注、數(shù)據(jù)開(kāi)發(fā)、到模型設(shè)計(jì)、訓(xùn)練、推理、部署整套的工作流。AI研發(fā)本身是一個(gè)持續(xù)迭代的過(guò)程,所以用戶(hù)還需要對(duì)效果進(jìn)行監(jiān)控,一旦發(fā)現(xiàn)效果不理想,還要回來(lái)重新再訓(xùn)練這個(gè)模型。這一整套流程都可以用阿里靈杰大數(shù)據(jù)AI一體化平臺(tái)解決,最大程度降低了從開(kāi)發(fā)到生產(chǎn),到運(yùn)維的復(fù)雜度和成本。
鏈接龐大的AI開(kāi)放生態(tài),持續(xù)創(chuàng)造價(jià)值
在強(qiáng)大的PaaS平臺(tái)的有力支撐下,阿里云構(gòu)建了豐富的AI開(kāi)放生態(tài)?;谖覀冏罨A(chǔ)的語(yǔ)音、視覺(jué)、NLP等基礎(chǔ)技術(shù),提供了上百種SaaS化AI服務(wù),這些服務(wù)非常簡(jiǎn)單易用。我們?cè)谠粕系腁I服務(wù),每天調(diào)用次數(shù)超過(guò)一萬(wàn)億次,我們?yōu)閺V大用戶(hù)提供了穩(wěn)定和可靠的AI服務(wù)體系。
此外,阿里云整體服務(wù)了超過(guò)100萬(wàn)AI開(kāi)發(fā)者。AI開(kāi)發(fā)者可以在我們的平臺(tái)上獲得開(kāi)箱即用的技術(shù)服務(wù)、最佳實(shí)踐和學(xué)習(xí)資源。
最后,阿里云作為中國(guó)云計(jì)算的領(lǐng)導(dǎo)者,我們深入到各行各業(yè),積累了大量的客戶(hù)以及應(yīng)用需求,為我們的開(kāi)放生態(tài)中的所有參與者,提供了最直接的業(yè)務(wù)支持,形成了生態(tài)與企業(yè)需求之間的良性互動(dòng)。
AI for Science 是近期非常火的領(lǐng)域,而 AI和智能計(jì)算在生物醫(yī)藥等領(lǐng)域正在發(fā)揮它的作用,而且有非常喜人的成果。深勢(shì)科技通過(guò)多尺度建模結(jié)合機(jī)器學(xué)習(xí)的創(chuàng)新方法,在確保模擬精度的同時(shí),引入深度學(xué)習(xí)算法處理大規(guī)模數(shù)據(jù)計(jì)算問(wèn)題。
在這個(gè)過(guò)程中阿里云通過(guò)PAI平臺(tái)自研AI編譯器利用協(xié)同優(yōu)化、編排優(yōu)化等手段,將深勢(shì)的機(jī)器學(xué)習(xí)訓(xùn)練效率提升5倍以上,幫助加速了新材料和新藥物研發(fā)的進(jìn)程。

我們將持續(xù)通過(guò)全棧AI服務(wù)、高效的機(jī)器學(xué)習(xí)平臺(tái)、以及門(mén)檻更低更易用的模型服務(wù),助力廣大開(kāi)發(fā)者。驅(qū)動(dòng)AI理想落進(jìn)現(xiàn)實(shí),為創(chuàng)新者加速,為開(kāi)拓者鋪路。