什么是內(nèi)容興趣偏好標(biāo)簽?zāi)?
簡(jiǎn)單來(lái)說(shuō)就是分析用戶喜歡看的文章類型,得到用戶的興趣偏好,在這樣的基礎(chǔ)上,對(duì)用戶進(jìn)行內(nèi)容的個(gè)性化推薦和push推送,來(lái)有效促進(jìn)app的活躍并拉長(zhǎng)用戶生命周期。
這件事情簡(jiǎn)單來(lái)說(shuō)其實(shí)就是兩步走:
首先對(duì)文章進(jìn)行分類,也就是俗稱的貼標(biāo)文章。
二是,給用戶打標(biāo)簽,也就是一個(gè)用戶閱讀了哪些不同類型的文章,相應(yīng)的就會(huì)獲取到學(xué)生自己的興趣選擇偏好進(jìn)行標(biāo)簽。
那么,在實(shí)踐中真的這么簡(jiǎn)單嗎?看似簡(jiǎn)單的兩個(gè)鏈接究竟是如何工作的?
通常,有三種方法可以獲取示例:
首先,文章的人工標(biāo)注,優(yōu)點(diǎn)是準(zhǔn)確,缺點(diǎn)是效率低,因?yàn)樗惴ㄐ枰罅繕颖荆杀痉浅8摺?/p>
另一種方法是通過(guò)一些開(kāi)源網(wǎng)站提供模型訓(xùn)練的關(guān)鍵詞,如可以從搜狗詞典中獲得,優(yōu)點(diǎn)是成本低,但缺點(diǎn)也很明顯,因?yàn)椴煌姆诸愊到y(tǒng)對(duì)部分分類有不同的理解,分類不夠準(zhǔn)確,后期需要大量的人力來(lái)修正。
第三種方式是配合一些信息類的app,獲取他們的文章和分類作為樣本。比如好的比如今天的頭條,uc都是不錯(cuò)的選擇。我們當(dāng)時(shí)其實(shí)也試過(guò)(一顆苦澀的淚)。
獲取樣本以后,就是算法模型的訓(xùn)練及其檢驗(yàn)了。算法模型的訓(xùn)練原理,即通過(guò)對(duì)樣本文章進(jìn)行分詞,抽取實(shí)體,建立特征工程,將每一個(gè)特征詞作為向量,擬合出一個(gè)函數(shù),這樣,當(dāng)有新的文章時(shí),該文章通過(guò)分詞,并通過(guò)模型計(jì)算出結(jié)果。但模型并不是能夠有樣本一次性就能準(zhǔn)確的,模型還需要進(jìn)行測(cè)試和矯正。