信息論創(chuàng)始人克勞德·艾爾伍德·香農(nóng)提出,信息是對不確定性的消除。香農(nóng)開創(chuàng)了用數(shù)學(xué)描述信息的先河,讓信息變得可測。
香農(nóng)提出的信息熵成為如今機器學(xué)習(xí)的一大理論基礎(chǔ)。
超兔CRM一直致力于研究用AI打單,本質(zhì)上是用機器學(xué)習(xí)處理信息,通過算法解析數(shù)據(jù),最終幫助銷售削弱跟單過程中的不確定性。下面,與您分享一下超兔CRM正在使用的算法。純干貨!兩大主題:1.LSTM 詳解;2.傳統(tǒng)機器學(xué)習(xí)與深度學(xué)習(xí)對比。
LSTM 詳解
1.RNN(循環(huán)神經(jīng)網(wǎng)絡(luò)):在介紹LSTM之前,先介紹RNN
a) 普通神經(jīng)網(wǎng)絡(luò):
圖為:神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖
神經(jīng)網(wǎng)絡(luò)可以當(dāng)做是能夠擬合任意函數(shù)的黑盒子,只要訓(xùn)練數(shù)據(jù)足夠,給定特定的x,就能得到希望的y。
舉一個情感分析的例子,輸入一句話,判斷這句話的的情感是正向的還是負(fù)向的。
其中x就是輸入層,如上圖有3個輸入,比如為 “我”,”喜歡”,”你”。經(jīng)過隱藏層的計算,輸出兩個值:正向的概率和負(fù)向的概率。(在XTool中的客戶意向,會設(shè)置三個輸出)。
那么既然普通的神經(jīng)網(wǎng)絡(luò)(如上)已經(jīng)可以完成意向判斷的功能,為什么還要循環(huán)神經(jīng)網(wǎng)絡(luò)呢?
他們都只能單獨的去處理一個個的輸入,前一個輸入和后一個輸入是完全沒有關(guān)系的。但是,某些任務(wù)需要能夠更好的處理序列的信息,即前面的輸入和后面的輸入是有關(guān)系的。
比如,當(dāng)我們在理解一句話意思時,孤立的理解這句話的每個詞是不夠的,我們需要處理這些詞連接起來的整個序列
所以為了解決一些這樣類似的問題,能夠更好的處理序列的信息,就有了RNN:
b) 循環(huán)神經(jīng)網(wǎng)絡(luò):
圖為:循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
但看上圖左邊部分可能有點暈,右邊為左邊按序列展開的樣式:
還拿上邊情感分析為例:
以此往后推。
這樣當(dāng)輸入完這句話時,最后的結(jié)果會把整個句子的信息都帶上。
但是這樣還不完美,為什么呢?上邊的舉的例子”我”,”喜歡”,”你”只有三個詞,但在實際運用中一句話可能會很長,幾十個詞。
如果把每個詞的信息都記錄下來,數(shù)據(jù)會很大,而且最前邊的詞對最后邊的詞的意思可能也沒影響。還有就是從算法上,返向求導(dǎo)時,可能會造成梯度消失或梯度爆炸。
這里簡單介紹一下梯度問題:機器學(xué)習(xí)都是靠梯度來找最優(yōu)模型的,剃度越小,模型越好。
為什么梯度會消失或爆炸呢,如果一句話很長,系數(shù)很小的話(比如0.002),一直相乘,會越來越接近0,最后消失,如果系數(shù)很大,一直相乘結(jié)果會越來越大,造成梯度爆炸。
2.LSTM:
圖為:長短期記憶網(wǎng)
從上圖和RNN對比發(fā)現(xiàn),每個隱藏層內(nèi)又做了許多的運算
1)第1個運算為忘記門:
就是決定什么信息應(yīng)該被神經(jīng)元遺忘。它會輸出 “0”或”1″,”1″表示”完全保留這個”,”0″表示”完全遺忘這個”。
2)第2個就是輸入門
就是決定我們要在神經(jīng)元細(xì)胞中保存什么信息
3)然后就是輸出門
決定哪一部分的神經(jīng)元狀態(tài)需要被輸出
3.LSTM在思想上是與RNN相通的,不同之處都在算法上。
傳統(tǒng)機器學(xué)習(xí)與深度學(xué)習(xí)對比
一、理論對比:
首先,深度學(xué)習(xí)是機器學(xué)習(xí)的一種
1. 數(shù)據(jù):
a) 隨著數(shù)據(jù)的增加,相比機器學(xué)習(xí)深度學(xué)習(xí)的性能會越來越好。
b) 深度學(xué)習(xí)不需要對數(shù)據(jù)處理,會自動學(xué)習(xí)提取特征,而機器學(xué)習(xí)需要先對數(shù)據(jù)進(jìn)行 格式轉(zhuǎn)化,數(shù)據(jù)清洗,壓縮緯度等操作。
2. 規(guī)則:
a) 具有特定規(guī)則的數(shù)據(jù),使用機器學(xué)習(xí)比較好。一些簡單的場景沒必要使用深度學(xué)習(xí)
3. 硬件
a) 深度學(xué)習(xí)需要進(jìn)行大量的矩陣計算,對硬件要求比較高。
4. 執(zhí)行時間
a) 深度學(xué)習(xí)訓(xùn)練模型需要的時間較長。
二、實踐對比:
分別使用貝葉斯算法及深度學(xué)習(xí)算法進(jìn)行文本分類預(yù)測:
圖為:神經(jīng)網(wǎng)絡(luò)與貝葉斯算法對意向分析對比圖
實例1:
分析:從結(jié)果可以看出,不同的數(shù)據(jù)順序,預(yù)測的結(jié)果會不同。
實例2:
分析:結(jié)果可以看出,神經(jīng)網(wǎng)絡(luò)對消極的判斷的概率更高一些。
實例3:
分析:結(jié)果可以看出,神經(jīng)網(wǎng)絡(luò)對積極的判斷的概率更高一些。
如上,”LSTM 詳解””傳統(tǒng)機器學(xué)習(xí)與深度學(xué)習(xí)對比”,非專業(yè)人士理解起來或許還有一定難度。不過,各位老板與管理者不用著急,以上純干貨理論知識,超兔已經(jīng)將理論逐步落地實踐,成為超兔CRM系統(tǒng)中的一部分功能,有「AI潛客意向判斷」、「猛犸微助」,更多好功能持續(xù)開發(fā)中。