時刻關(guān)注行業(yè)動態(tài),走在行業(yè)前沿
發(fā)布時間: 2020-07-02 信息來源:河南凡特網(wǎng)絡技術(shù)有限公司 瀏覽:2275次
什么是內(nèi)容興趣偏好標簽呢?
簡單來說就是分析用戶喜歡看的文章類型,得到用戶的興趣偏好,在這樣的基礎上,對用戶進行內(nèi)容的個性化推薦和push推送,來有效促進app的活躍并拉長用戶生命周期。
這件事情簡單來說其實就是兩步走:
一是,給文章進行分類,也就是我們俗稱的給文章打標簽。
二是,給用戶打標簽,也就是用戶閱讀了哪些類型的文章,相應的就會獲取到自己的興趣偏好標簽。
那么在實際操作中真的如此簡單嗎?看似簡單的兩個環(huán)節(jié),究竟是如何實現(xiàn)的呢?
一般情況下有三種方式獲取樣本:
一是人工對文章進行標注,優(yōu)點是準確,缺點是效率低,對于算法要求大量樣本的要求,成本非常高。
而另一種方式則是通過一些開源網(wǎng)站提供的關(guān)鍵詞進行模型訓練,比如可以從搜狗詞庫獲取,優(yōu)點是成本低,但缺點也很明顯,由于不同的分類體系對部分分類的理解不一致,導致分類并不夠準確,后期需要耗費大量的人力進行矯正。
第三種方式是和一些資訊類app進行合作,獲取他們的文章以及分類作為樣本,例如目前做的比較好的如今日頭條、uc等都是不錯的選擇。我們當時其實都嘗試了(一把辛酸淚)。
獲取樣本以后,就是算法模型的訓練及其檢驗了。算法模型的訓練原理,即通過對樣本文章進行分詞,抽取實體,建立特征工程,將每一個特征詞作為向量,擬合出一個函數(shù),這樣,當有新的文章時,該文章通過分詞,并通過模型計算出結(jié)果。但模型并不是能夠有樣本一次性就能準確的,模型還需要進行測試和矯正。