速途網(wǎng)9月10日消息(報道:李楠)今日,騰訊AI Lab宣布將于9月底開源“Tencent
ML-Images”項目,該項目由多標簽圖像數(shù)據(jù)集ML-Images,以及業(yè)內(nèi)目前同類深度學(xué)習(xí)模型中精度最高的深度殘差網(wǎng)絡(luò)ResNet-101構(gòu)成。
據(jù)速途網(wǎng)了解,該項目的開源是騰訊AI
Lab在計算機視覺領(lǐng)域所累積的基礎(chǔ)能力的一次釋放,為人工智能領(lǐng)域的科研人員和工程師提供了充足的高質(zhì)量訓(xùn)練數(shù)據(jù),及簡單易用、性能強大的深度學(xué)習(xí)模型,促進人工智能行業(yè)共同發(fā)展。
騰訊AI Lab此次公布的圖像數(shù)據(jù)集ML-Images,包含了1800萬圖像和1.1萬多種常見物體類別。此外,騰訊AI
Lab還將提供基于ML-Images訓(xùn)練得到的深度殘差網(wǎng)絡(luò)ResNet-101。該模型具有優(yōu)異的視覺表示能力和泛化性能,在當前業(yè)內(nèi)同類模型中精度最高,將為包括圖像、視頻等在內(nèi)的視覺任務(wù)提供強大支撐,并助力圖像分類、物體檢測、物體跟蹤、語義分割等技術(shù)水平的提升。
以深度神經(jīng)網(wǎng)絡(luò)為典型代表的深度學(xué)習(xí)技術(shù)已經(jīng)在很多領(lǐng)域充分展現(xiàn)出其優(yōu)異的能力,尤其是計算機視覺領(lǐng)域,包括圖像和視頻的分類、理解和生成等重要任務(wù)。然而,要充分發(fā)揮出深度學(xué)習(xí)的視覺表示能力,必須建立在充足的高質(zhì)量訓(xùn)練數(shù)據(jù)、優(yōu)秀的模型結(jié)構(gòu)和模型訓(xùn)練方法,以及強大的的計算資源等基礎(chǔ)能力之上。
各大科技公司都非常重視人工智能基礎(chǔ)能力的建設(shè),都建立了僅面向其內(nèi)部的大型圖像數(shù)據(jù)集,例如谷歌的JFT-300M和Facebook的Instagram數(shù)據(jù)集。但這些數(shù)據(jù)集及其訓(xùn)練得到的模型都沒有公開,對于一般的科研機構(gòu)和中小企業(yè)來說,這些人工智能基礎(chǔ)能力有著非常高的門檻。
當前業(yè)內(nèi)公開的最大規(guī)模的多標簽圖像數(shù)據(jù)集是谷歌公司的Open Images, 包含900萬訓(xùn)練圖像和6000多物體類別。騰訊AI
Lab此次開源的ML-Images數(shù)據(jù)集包括1800萬訓(xùn)練圖像和1.1萬多常見物體類別,或?qū)⒊蔀樾碌男袠I(yè)基準數(shù)據(jù)集。除了數(shù)據(jù)集,騰訊AI
Lab團隊還將在此次開源項目中詳細介紹:
1)大規(guī)模的多標簽圖像數(shù)據(jù)集的構(gòu)建方法,包括圖像的來源、圖像候選類別集合、類別語義關(guān)系和圖像的標注。在ML-Images的構(gòu)建過程中,團隊充分利用了類別語義關(guān)系來幫助對圖像的精準標注。
2)基于ML-Images的深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法。團隊精心設(shè)計的損失函數(shù)和訓(xùn)練方法,可以有效抑制大規(guī)模多標簽數(shù)據(jù)集中類別不均衡對模型訓(xùn)練的負面影響。
3)基于ML-Images訓(xùn)練得到的ResNet-101模型,具有優(yōu)異的視覺表示能力和泛化性能。通過遷移學(xué)習(xí),該模型在ImageNet驗證集上取得了80.73%的top-1分類精度,超過谷歌同類模型(遷移學(xué)習(xí)模式)的精度,且值得注意的是,ML-Images的規(guī)模僅為JFT-300M的約1/17。這充分說明了ML-Images的高質(zhì)量和訓(xùn)練方法的有效性。詳細對比如下表。

注:微軟ResNet-101模型為非遷移學(xué)習(xí)模式下訓(xùn)練得到,即1.2M預(yù)訓(xùn)練圖像為原始數(shù)據(jù)集ImageNet的圖像。
騰訊AI Lab此次開源的“Tencent
ML-Images”項目,展現(xiàn)了騰訊在人工智能基礎(chǔ)能力建設(shè)方面的努力,以及希望通過基礎(chǔ)能力的開放促進行業(yè)共同發(fā)展的愿景。
“Tencent ML-Images”項目的深度學(xué)習(xí)模型,目前已在騰訊多項業(yè)務(wù)中發(fā)揮重要作用,如“天天快報”的圖像質(zhì)量評價與推薦功能。
如下圖所示,天天快報新聞封面圖像的質(zhì)量得到明顯提高。

左:優(yōu)化前 右:優(yōu)化后
此外,騰訊AI Lab團隊還將基于Tencent
ML-Images的ResNet-101模型遷移到很多其他視覺任務(wù),包括圖像物體檢測,圖像語義分割,視頻物體分割,視頻物體跟蹤等。這些視覺遷移任務(wù)進一步驗證了該模型的強大視覺表示能力和優(yōu)異的泛化性能。“Tencent
ML-Images”項目未來還將在更多視覺相關(guān)的產(chǎn)品中發(fā)揮重要作用。
自2016年騰訊首次在GitHub上發(fā)布開源項目(https://github.com/Tencent),目前已累積開源覆蓋人工智能、移動開發(fā)、小程序等領(lǐng)域的57個項目。為進一步貢獻開源社區(qū),騰訊相繼加入Hyperledger、LF
Networking和開放網(wǎng)絡(luò)基金會,并成為LF深度學(xué)習(xí)基金會首要創(chuàng)始成員及Linux基金會白金會員。作為騰訊“開放”戰(zhàn)略在技術(shù)領(lǐng)域的體現(xiàn),騰訊開源將繼續(xù)對內(nèi)推動技術(shù)研發(fā)向共享、復(fù)用和開源邁進,向外釋放騰訊研發(fā)實力,為國內(nèi)外開源社區(qū)提供技術(shù)支持,注入研發(fā)活力。