2023年1月6日,由稀土掘金技術社區與 Intel 聯合發起的第一屆「掘金未來大會」在北京成功舉行。
大會上,Intel Habana 中國區業務總監于明揚帶來了Intel 助力 AI 大模型浪潮下,如何幫助企業進行數字化創新和變革。他提到,AI 大模型是最具想象力的科技發展方向之一,模型不止于“大”,通用、開放、高效、善良,是 AI 大模型的理想標準。目前,大模型生態已經達到了一個比較完善的地步,可以方便很多的開發者去進行研究和分析,甚至開始進行部署。但隨著模型參數與數據集規模不斷增大,無形中帶來了許多問題和挑戰,其中,開源是大模型未來發展中的一個非常重要的手段。
于明揚預測,大模型是 AI 領域里一個新的科技創新,AI 大模型有可能帶來下一輪人工智能的發展浪潮。合作、開源將會給大模型的發展帶來更大的動力。隨著大模型的發展,在數據安全、倫理道德、模型易用性以及模型友好程度等各個方面,通過大家的探討能夠去更加完善,保證大模型在未來的使用當中能夠真正地幫助和解決實際問題,而不會去造成更多的困擾。
大模型的訓練,需要“大數據+大算力+強算法”,英特爾基于這三個方面提出相關的解決方案,來幫助客戶去克服目前大模型部署和使用中的問題。目前英特爾SPR+Habana/Xe+OpenAPI的完整平臺已經在一些行業中得到驗證,利用并行異構系統解決數據獲取、處理、計算和存儲,實現大模型的高效訓練與推理。

以下為Intel Habana 中國區業務總監于明揚演講全文:
今天我給大家帶來是,Intel 助力 AI 大模型浪潮下,如何幫助企業進行數字化創新和變革。
大家都了解,英特爾主要的產品是基礎的計算平臺,同時英特爾也向很多客戶提供各種各樣的軟件的中間解決方案。在未來一段時間里,尤其是在人工智能的發展階段中,越來越多的大模型應用場景出現。在大模型這一新業態下如何建立完整的生態環境,這是很多企業必須要考慮事情。在此情況下,我們帶來了一些新的想法,借助這個機會跟大家交流,傾聽大家的一些意見,不斷去地改進整個生態。
今天的介紹主要圍繞幾個方面:
●簡單回顧一下大模型的發展歷史,以及目前大模型在整個行業中的使用情況;
●針對大模型在很多行業中普遍出現的一些問題,英特爾嘗試提供的一些解決方案,供大家參考;
●從英特爾的角度,對大模型未來的發展評估和分析。
大模型生態已經初具規模
2017 年, Transformer 結構的提出,使深度學習模型參數達到了上億的規模。到了 2019 年,Google 率先發布了第一個大規模的語言模型 Bert,其參數首次超過 3 億規模。但很快在 2020 年,OpenAI 推出了更大規模的語言訓練模型 GPT-3,其參數達到了 1750 億。僅一年時間,整個模型的規模就從億級突破到了上千億。但這種高速的發展并沒有結束,在今年又出現了一些新的常規業態大模型,比如 Stability AI,它發布的文字到圖像的創新模型 Diffusion 。去年年底剛剛出現了 ChatGPT, 以及 OpenAI 今年即將發布的GPT-4,預期它們帶來的模型參數會有更快速的增長。

大模型的參數和數據規模的增長,會帶來什么樣的變化?首先,大模型集成了各種不同模態下的數據,從傳統的有限的 AI 擴展到更多的應用場景;其次,大模型通過預訓練以及針對下游業務進行的預調整,可以適用于各種各樣的細分應用場景。它可以把各種結構化數據和非結構化數據結合起來,幫助更多的行業完成人工智能部署的要求;隨著大模型的參數和數據量不斷增加,大模型的整體訓練精度也得到了不斷地提高?,F在的自然語言處理的精度已經非常接近于人的處理水平,這也是大模型帶來的巨大變化。
另外,大模型通過一些自監督的學習方法,很大程度上解決了傳統人工智能中對于數據標注的高成本、長周期和精確度的問題。大模型的業務發展越來越快。過去,大模型主要針對語言模型的發展;現在,大模型已經突破了傳統的自然語言處理,發展到對圖像的處理,以及一些自動模式識別等等,所以大模型的業務場景已經突破了傳統且最早的定義限制。
再看大模型生態。大模型生態是比較完善的,雖然一些傳統的人工智能訓練框架,比如 Pytorch 和 Tensorflow,對于運行一些大模型的訓練還是有局限性,但是在行業內,越來越多的廠家已經參與到大模型框架的開發中,比如,微軟基于 Pytorch 開發了 DeepSpeed,以及國內的一些廠家,百度、阿里、華為等等,都推出了一些針對大模型的改良框架,很好地支持了目前很多通用的大模型訓練。因此,大模型生態已經初具規模。
其次,從大模型開源生態講,已經有很多廠家提供了大模型開源環境,比如,Huggingface、Stability AI、Meta 開源的的OPT等,他們都提供了深度開源的代碼,供大家進行二次開發。所以大模型生態已經達到了一個比較完善的地步,可以方便很多的開發者去進行研究和分析,甚至開始進行部署。
模型參數與數據集規模不斷增大
在整個大模型的發展中,很多大模型的業務已經開始落地,比如,智源實驗室推出“悟道”大模型已經用于冬奧會上手語播報數字人;華為采用盤古CV大模型平臺,在無人機電力巡檢中獲得了一些實際效果。

大模型看似發展已經很好了,為什么我們在生活中對大模型的感受并不是很強烈?對比最早的人工智能的應用,我們會感覺到大模型好像離我們很遠,這并不是說大模型不適合日常應用場景,而是大模型的使用有一定的門檻,這種門檻造成了大模型在很多應用場景下的部署以及使用的瓶頸。
首先,大模型的數據量很大,其次它的整個模型參數也是一個非常高的數量級,并且隨著大模型的演變和發展,參數規模與數據集規模不斷地呈指數級增加。
舉一個例子,GPT-3 最大的模型參數量達到了 1750 億,訓練數據超過了 45TB,如果要完成一次 GPT-3 完整的訓練過程,大約需要 3.14E FLOPS 的算力。這意味著什么?全世界最高效的 HPC 集群的理論計算峰值才剛剛達到這個數字,我們不可能建立如此大的集群來訓練一個模型,這無形之中造成了大模型發展的最大瓶頸,就是如何解決訓練中的算力要求。除此之外,大模型還對平臺的部署提出了很多新的要求,比如,在分布式并行的場景下,如何提高整個系統的使用效率?如何解決在大模型中很多核心算法的利用率問題?這些問題對于很多中小企業和普通開發者造成了很大障礙。
大模型在行業中之所以很難廣泛應用,是因為它的算力,以及對整個開發環境的要求,使整個生態還是有一定的困難和門檻。如何解決這個問題,就是 Intel 一直在嘗試和努力探索的方向。Intel 已經與行業內很多合作伙伴去建立了開源合作基礎。開源是大模型未來發展中的一個非常重要的手段。
首先,開源可以集中各個方面的能力和資源解決模型當中的優化問題,同時,利用開源可以把很多計算資源集中起來完成對大模型的訓練。另外,開源還可以解決很多大模型未來部署實施中的一些顧慮,提出解決方法。因此,開源是解決大模型未來發展的一個最重要的手段。其次,一些企業開始嘗試把一些大模型拆分成針對于特殊應用場景的小規模訓練集,保證一些模型在特定場景下也可以部署和使用,這是一種解決方案。同時,各地政府和一些研究機構也在部署自己的算力集群,通過社會層面去解決算力需求的問題。
還有一個趨勢是加速大模型的使用。對于模型的訓練來說并不見得是有非常強的要求,很多普通用戶更多的是希望在業務中去部署大模型,這種大模型的部署需要推理的能力。如何解決高效、低成本、環保的推理解決方案,這也是大模型部署當中需要考慮的一個問題。現在,Intel 已經和第三方廠家去共同努力給客戶提供一個更好的調優以及進行二次開發的環境,幫助很多客戶解決他們在未來大模型使用和部署當中遇到的一些問題。
大模型中最核心的三個點:大數據、大算力、強算法
和開源的大模型相比,現在很多非開源模型還是有整體優勢的。在整體訓練的精確度上,它和開源相比還是有一定的優勢,它的一些場景要領先于開源。大模型中最核心的三個點:大數據:大算力、強算法。根據這三個點,Intel 提出了解決方案,幫助客戶解決大模型部署和使用中所出現的一些問題。
![1675307601486776.png DT`%WQ9]M9_X)I{O`{M1I[V.png](http://chuanboquan.com.cn/upload/image/202302/1675307601486776.png)
在大數據方面,需要更多的行業參與者去提供各種數據格式的數據資源,把這些數據整合到一起就有可能去做一個數據層面的突破。在算力方面,Intel 為客戶提供高效的算力解決方案。 Intel 也提供一個開源的、友善的以及非常靈活的大數據的框架,就是 基于Intel 的 Sapphire Rapids 新一代的至強處理器,Intel Habana 高性價比AI 加速設備、 Intel 最新的 GPU 的 Xe 處理設備,以及我們在一直在行業內大力推廣的 oneAPI 的開源框架。
Intel 通過這樣一個完整的平臺去幫助客戶解決大模型訓練、推理以及部署當中的問題,并且已經在一些行業中獲得了驗證。圖中是Intel 在全球多個地點和客戶共同配合去提供的一個完整的大模型訓練和推理部署的解決方案。在這個方案中,可以滿足客戶數據獲取、數據預處理,以及在整個模型訓練和推理中對計算和存儲的要求。目前,國內一些地方已經開始部署這個平臺,未來 Intel 還會把平臺上的算力資源、集成的 Intel 軟件,以及 Intel 和合作伙伴共同開發的一些應用提供給大家進行試用。
在Habana平臺中, Intel 選擇了微軟的 DeepSpeed,之所以選擇 DeepSpeed 這一非開源平臺,是因為非開源的大規??蚣芷脚_有一定的優勢,一方面,它在計算精度上比開源模型有更高的標準,另一方面,它在整個生態中提供了比較好的 API 的接口,便于客戶進行更多的二次開發和研究。
Intel 最核心考慮的一點就是內存的利用率。在大模型使用過程中,內存資源的占用是非常耗費平臺整體資源,比如,在訓練過程中,很多參數的內容需要保存在 AI 訓練加速設備當中,這種資源的占用帶來兩個的因素,第一是隨著占用設備內存的增加,計算規??隙ㄒ獢U大;第二是數據內容要不斷地進行反復加載、反復集中,這樣對整個集群的通訊效率造成很大的壓力。
因此,Intel 嘗試去做一些簡單的優化和處理。Intel 選擇 DeepSpeed 提供的一個零冗余的內存優化方案解決在內存分配中所遇到的一些資源上的浪費,通過高效網絡帶寬解決并行處理的參數分發以及參數集中。現有的網絡通訊包含兩個方案:一種是交換式解決方案,如英偉達 NVLink 集群化的解決方案;一種是點到點全連通的解決方案。不是說這兩種解決方案哪一種更優,Intel 也在不斷地嘗試不同的通訊協議對于大模型的訓練帶來的價值。
另外,考慮到在模型的訓練過程當中,模型狀態的保存帶來的資源消耗。Intel 利用了 DeepSpeed 里邊的 ZeRO-1、 ZeRO-2,甚至 ZeRO-3 整個的模型參數的分發原則,通過不同的模型參數資源的分配可以把整個模型對于內存資源的占用呈指數級的下降,通過最高級別的內存優化可以做到內存的資源耗費大約只占原來標準模型的 1/ 16。這對于一個大規模的模型部署來講,是一個非常有價值的嘗試,而且這種嘗試可以看到它的效率、性價比還是非常有優勢的。另外,如何去利用不同精度的混合計算去解決計算的資源,以及最后計算結果的精度的問題,這也是一個非常有意思的嘗試。
目前,在很多的加速設備中,大家都能支持 BF 16,也能支持 FP 32。在 BF16 的使用場景中,很大程度上節省資源的占用的問題,但無形當中會帶來一些很大的準確性隱患。在反向計算中可能會喪失一些信息,會引入一些誤差,降低整個模型最后訓練的精度,那么結合 FP32 就可以很好的解決這個問題。Intel 選擇了一個比較靈活的模式,對整個架構做了一些探索,這種探索是有一定的收獲,也愿意把這些經驗分享給大家。在 Intel Habana網站上,就有非常詳細的技術實現方案,包括技術的原理以及整個參考代碼,大家可以體驗一下優化所帶來的效果。
AI 大模型有可能帶動新一輪的人工智能發展浪潮
從 Intel 角度來講,對于未來大模型是持一個什么樣的看法?首先,在最近一段時間內,大模型是 AI 領域里一個新的科技創新,AI 大模型有可能帶來下一輪人工智能發展浪潮。這幾年人工智能的發展已經達到了一個巔峰,尤其是在圖像識別領域,它基本上超過人的識別能力,但在自然語言的處理方面,機器學習、深度學習一直落后于人的處理能力,所以大模型的出現彌補了這個方面不足。
其次,大模型的應用場景。傳統的 AI 模型都是碎片化、專業化的場景,往往針對視頻監控、人臉識別以及一些特定的場景,但大模型的使用會把應用場景擴展到更大,不僅是 AIGC 這種內容生成,還會對很多細分領域帶來新的創新。所以未來大模型有可能會成為人工智能里一個比較集成化的解決方案,對于很多的用戶來說,未來的使用大模型可能會帶來更多的靈活性和易用性。
再者,合作、開源將會給大模型的發展帶來更大的動力。開源是未來大模型發展當中的一個重要的環節,在開源中如何幫助大模型去完善解決開源和非開源大模型中的精度誤差,也是要探討的一個問題。
系統廠家也不斷通過硬件性能的提升和架構優化解決大模型訓練和推理的效率。無論是硬件廠家,還是框架和平臺廠家,在這幾年在大模型的調優上都花費了很大的精力,雖然大模型的數據和算力要求在不斷的增長,但是像Intel 這樣的硬件廠家也不斷地在硬件設備上提供能力的補充,盡管跟模型的需求有一定的差異,但是這種差異相信在未來會不斷地縮小。
隨著大模型的發展,在數據安全、倫理道德、模型易用性以及模型友好程度等各個方面,通過大家的探討去進一步完善,保證大模型在未來的使用當中能夠真正地解決大家的實際問題,而不會去造成更多的困擾。
同時,國內的很多研究機構花費了很大的精力建立了自己的專有訓練集群,他們去開發自己的大模型,但在落地和應用中還是有一定的欠缺。希望有更多的廠家企業參與到未來大模型的生態環境當中,提供更多的應用場景,幫助機構把大模型落實到實際業務中,去解決社會面臨的實際問題。謝謝大家!