導(dǎo)語(yǔ):
隨著生成式AI模型不斷拓寬AI應(yīng)用的場(chǎng)景邊界,模型在線服務(wù)的數(shù)量級(jí)快速增長(zhǎng),AI推理環(huán)節(jié)亟需精細(xì)化的資源管理。
近日,阿里云機(jī)器學(xué)習(xí)平臺(tái)PAI宣布全面升級(jí)模型服務(wù)平臺(tái)PAI-EAS,面向文圖生成、大語(yǔ)言模型等各類模型提供彈性穩(wěn)定的推理服務(wù),并推出全新規(guī)格GU30,與傳統(tǒng)規(guī)格相比價(jià)格平均優(yōu)惠45%。
全新推理規(guī)格GU30問(wèn)世,釋放技術(shù)紅利
在AI工程化鏈路中,推理服務(wù)是打通“模型到應(yīng)用最后一公里”的重要環(huán)節(jié),并持續(xù)伴隨業(yè)務(wù)成長(zhǎng)。
PAI-EAS是PAI推出的彈性推理服務(wù)平臺(tái),提供異構(gòu)硬件 (CPU/GPU) 模型加載和服務(wù)部署,支撐達(dá)摩院、淘寶、高德等業(yè)務(wù)大量級(jí)模型服務(wù),并廣泛服務(wù)阿里云上企業(yè)客戶。結(jié)合推理優(yōu)化技術(shù)和云原生生態(tài),PAI-EAS進(jìn)一步提升異構(gòu)資源集群整體利用率,規(guī)模化地實(shí)現(xiàn)服務(wù)效率與性能提升,擴(kuò)大讓利空間。
新推出的PAI-EAS GU30系列規(guī)格,專用于深度學(xué)習(xí)異構(gòu)推理場(chǎng)景,較PAI-EAS同等性能的傳統(tǒng)規(guī)格價(jià)格下降45%。
GU30可適配不同復(fù)雜程度的模型,支撐文圖生成、大語(yǔ)言模型、多模態(tài)模型、NLP、CV、ASR等的推理需求。付費(fèi)模式上,EAS同時(shí)支持預(yù)付費(fèi)和靈活的按量付費(fèi),用戶可以通過(guò)彈性擴(kuò)縮容、彈性資源池等能力精細(xì)化地按需管控推理資源。

Serverless化覆蓋多樣推理場(chǎng)景
作為云上AI推理服務(wù)平臺(tái),PAI-EAS在基礎(chǔ)設(shè)施層、容器調(diào)度層、模型部署層都提供豐富的產(chǎn)品功能,貼合不同場(chǎng)景的個(gè)性化需求。
? 實(shí)時(shí)同步推理場(chǎng)景,例如個(gè)性化推薦或類ChatGPT對(duì)話應(yīng)用等,用戶可通過(guò)一鍵壓測(cè)得到服務(wù)的QPS和時(shí)延閾值,并結(jié)合灰度發(fā)布和藍(lán)綠部署功能,在不影響線上業(yè)務(wù)的情況下進(jìn)行性能驗(yàn)證并順滑切換。
? 近實(shí)時(shí)異步推理場(chǎng)景,例如文圖生成或視頻處理等,涉及較為復(fù)雜模型的推理,單次推理時(shí)間從十幾秒到幾十分鐘不等,PAI-EAS在推理服務(wù)內(nèi)部集成服務(wù)維度的消息隊(duì)列,并支持面向隊(duì)列長(zhǎng)度實(shí)現(xiàn)推理的自動(dòng)彈性擴(kuò)縮容,滿足資源利用率提升及免運(yùn)維需求。
? 離線批量推理場(chǎng)景,例如語(yǔ)音數(shù)據(jù)批量文本轉(zhuǎn)換等時(shí)延不敏感的場(chǎng)景,PAI-EAS可通過(guò)搶占型資源實(shí)例的方式幫助用戶控制批量推理成本。

PAI-EAS最新活動(dòng)
從2023年4月中旬起,阿里云產(chǎn)品試用中心將正式開(kāi)放PAI-EAS同等算力的試用規(guī)格,提供最長(zhǎng)3個(gè)月的模型在線服務(wù)免費(fèi)體驗(yàn)包。點(diǎn)擊PAI-EAS產(chǎn)品頁(yè)官網(wǎng)(鏈接:https://www.aliyun.com/activity/bigdata/pai/eas),可在PAI-EAS產(chǎn)品官網(wǎng)獲得最新活動(dòng)信息。