《推薦系統(tǒng)實(shí)戰(zhàn)》- 筆記與思考

發(fā)布時(shí)間：2017年07月11日作者： IT網(wǎng)絡(luò)文摘 (該文來(lái)自筆記，點(diǎn)擊查看原文)

什么是好的推薦系統(tǒng)

推薦系統(tǒng)一般有兩種：一種是預(yù)測(cè)用戶評(píng)分，另外是給出TopN，但后者會(huì)更頻繁更有用。因?yàn)轭A(yù)測(cè)分?jǐn)?shù)并不能怎么樣?！爸攸c(diǎn)是他看了，而不是評(píng)價(jià)”。下面都以TopN為主。

衡量推薦系統(tǒng)有四個(gè)基本指標(biāo)：

準(zhǔn)確率：
召回率：
覆蓋率：對(duì)長(zhǎng)尾物品的挖掘能力，所有用戶的推薦總列表，占所有商品的比例，可以看出，K越大，覆蓋率一定越高
流行度:

更高級(jí)別的：

新穎度: 這會(huì)讓人眼前一亮，但很難通過(guò)離線計(jì)算獲得，通常都用用戶問(wèn)卷。

現(xiàn)在主流推薦算法都有馬太效應(yīng)：強(qiáng)者越強(qiáng)，弱者越弱，會(huì)造成基尼系數(shù)的進(jìn)一步提升。

距離和基于圖的算法

基于距離的算法

用戶購(gòu)買的物品，可以記做矩陣。就有了ItemCF和UserCF，即常用的協(xié)同過(guò)濾。簡(jiǎn)單說(shuō)，購(gòu)買了相似物品的用戶越相似，被用戶同時(shí)購(gòu)買的商品更相似。

對(duì)大部分東西的熱度曲線，都呈現(xiàn)長(zhǎng)尾效應(yīng)：指數(shù)曲線。占20%的物品占據(jù)了80%的流量。越是重度用戶，越會(huì)關(guān)心那些冷門(mén)的信息。

UserCF的推薦更社會(huì)化，反映了用戶在小型團(tuán)體中興趣的程度；和自己相似的人喜歡的，自己也喜歡。 ItemCF的推薦更個(gè)性化，反映了用戶自己的興趣：一定會(huì)喜歡購(gòu)買類似的商品。

算法看似簡(jiǎn)單，但都有共同的問(wèn)題，比如物品和物品是不同的，新華字典的信息量肯定沒(méi)有《機(jī)器學(xué)習(xí)》來(lái)得大；人和人也是不同的，一個(gè)書(shū)商購(gòu)書(shū)行為，也和普通的文藝青年有所區(qū)別。因此，需要特別去調(diào)整頻繁用戶/物品的權(quán)重，避免污染整個(gè)數(shù)據(jù)集。

另外，如果物品特別多或更新頻繁，就去更新用戶矩陣。而若用戶特別多，則可用物品矩陣。簡(jiǎn)而言之，沒(méi)有最合適的方法，都需要根據(jù)具體業(yè)務(wù)場(chǎng)景來(lái)定義規(guī)則。

K值越大，需要考慮的用戶和商品就越多，顯然，對(duì)UserCF,可以提升覆蓋率，但不一定能提升召回。對(duì)ItemCF, K越大會(huì)降低覆蓋率（為什么？）。
選擇一個(gè)合適的K很重要。ItemCF的好處是其可解釋性。

基于隱語(yǔ)義的算法

簡(jiǎn)單說(shuō)，如果用戶之前喜歡科技類書(shū)籍，那么就可以給他打標(biāo)簽，科技，之后即可推薦科技類書(shū)籍。

但問(wèn)題是：

不是所有的書(shū)籍都有準(zhǔn)確的分類，比如數(shù)學(xué)or計(jì)算機(jī)
分類很難提供準(zhǔn)確的粗細(xì)粒度
甚至不一定有合適的分類標(biāo)簽

這就是隱語(yǔ)義，可以通過(guò)類似聚類的方法，將Item做分類，但標(biāo)簽不一定是可解釋的，也就是所謂的“隱”，即LFM。

LFM通過(guò)如下公式計(jì)算用戶對(duì)某個(gè)商品的興趣：

分類導(dǎo)航

《推薦系統(tǒng)實(shí)戰(zhàn)》- 筆記與思考

什么是好的推薦系統(tǒng)

距離和基于圖的算法

基于距離的算法

基于隱語(yǔ)義的算法

延伸閱讀

我想了解如何學(xué)習(xí)