全文將圍繞下面三點(diǎn)展開:
- 數(shù)據(jù)科學(xué)VS用戶興趣分群
- 基于事實生成的用戶興趣標(biāo)簽
- 基于內(nèi)容聚類的用戶興趣分群探索
01 數(shù)據(jù)科學(xué)VS用戶興趣分群
首先通過下圖介紹一下數(shù)據(jù)科學(xué)專家的能力范圍。

注:圖片來源于網(wǎng)絡(luò),侵權(quán)刪?
數(shù)據(jù)科學(xué)家的能力主要由三方面:較強(qiáng)的數(shù)學(xué)功底和數(shù)字敏感程度、很強(qiáng)的問題解決能力(包括數(shù)據(jù)分析、數(shù)據(jù)建模和數(shù)據(jù)處理等能力)、很強(qiáng)的業(yè)務(wù)溝通能力。

雖然數(shù)據(jù)科學(xué)家面對的業(yè)務(wù)是比較個性化的,但是我們今天將提煉出一個較為通用且具有借鑒意義的課題進(jìn)行分享——用戶興趣分群,其本質(zhì)是通過大數(shù)據(jù)的挖掘和分析,反映出用戶對某個主題或事物不同程度的匹配價值和接受程度。其在互聯(lián)網(wǎng)的各行各業(yè)中是比較適用的,例如電商行業(yè)、服務(wù)行業(yè)、內(nèi)容行業(yè)等,也可以應(yīng)用到一些算法場景提高其準(zhǔn)確度和效果,例如廣告搜索推薦、運(yùn)營策略等。
02 基于事實生成的用戶興趣標(biāo)簽
1. 用戶興趣權(quán)重標(biāo)簽如何設(shè)計?

為了解不同用戶的興趣,采用最典型的方式就是給用戶打標(biāo)?;诓煌瑯I(yè)務(wù)的認(rèn)知,所提煉出的維度是各異的,但提取的流程類似,例如愛奇藝平臺這類內(nèi)容行業(yè)通常按照以下幾步提取用戶興趣偏好標(biāo)簽:
- 基于業(yè)務(wù)認(rèn)知研究主題:選取不同興趣的主題,例如視頻內(nèi)容、視頻類型、相關(guān)明星、播放頻道、播放時間以及價格等。
- 基于以上主題梳理用戶行為:用戶會通過一些觀影和互動等行為表現(xiàn)出對某一主題的傾向性,例如明星偏好,則可能存在關(guān)注、發(fā)彈幕評論、觀看相關(guān)視頻等行為。
- 選取合適的維度和計算方法量化用戶行為:對于用戶各種顯式和隱式行為,需要一套合理的指標(biāo)體系進(jìn)行量化。針對觀影行為,可以從觀影次數(shù)、觀影時長等維度進(jìn)行量化。
- 數(shù)據(jù)處理:在建立這個體系的過程中,對不同的指標(biāo)采用加權(quán)、降權(quán)、時間衰減、起始值等方法使量化結(jié)果更加合理科學(xué)。經(jīng)過數(shù)據(jù)權(quán)重等方法處理后,得到一個總和的權(quán)重,還需要將其進(jìn)行0—1的歸一化處理,如果有負(fù)向指標(biāo),可以做-1—1的置信度處理。
通過以上方法得到的結(jié)果,便可以反應(yīng)用戶的偏好傾向,得分越高表示該用戶對于該主題的偏好更加強(qiáng)烈。
2. 用戶興趣標(biāo)簽的驗證與迭代

上面介紹了生成標(biāo)簽的流程方法。在使用該標(biāo)簽之前,我們還需要審視一下這個標(biāo)簽的適用性,例如上述提到的可比性問題。將標(biāo)簽引入到不同業(yè)務(wù)之前需要進(jìn)行審視和驗證。
?
對于標(biāo)簽的驗證,主要有兩種方法:?
- 盲測用戶問卷:收集用戶反饋,例如用戶對明星喜好進(jìn)行判斷,便可提供整個權(quán)重的校準(zhǔn)依據(jù),基于此檢驗排序性,判斷標(biāo)簽合理性。
- 線上不同場景ABTEST:上線權(quán)重標(biāo)簽前可在內(nèi)容過濾、排序等模型上進(jìn)行測試,利用實驗對照組觀察能否帶來明顯提升或正向效果,利用ABTEST的結(jié)果修正權(quán)重設(shè)計。
?
權(quán)重標(biāo)簽更多的是做用戶中長期的偏好計算, 對于即時愛好的計算需要采用事實標(biāo)簽。權(quán)重標(biāo)簽也存在一些短板:
- 權(quán)重解釋性:權(quán)重標(biāo)簽生成過程中,難免進(jìn)行一下復(fù)雜的數(shù)據(jù)處理,使得該標(biāo)簽對于業(yè)務(wù)方而言不夠簡單明了。
- 每天全量decay:有些數(shù)據(jù)會融合各種衰減計算,使計算復(fù)雜度更高。
- 不適合實時場景:對于每天實時發(fā)生的行為數(shù)據(jù)難以及時更新到權(quán)重標(biāo)簽中去,這樣的數(shù)據(jù)標(biāo)簽存在滯后性。
對于一些個性化的場景,會考慮給業(yè)務(wù)方提供事實標(biāo)簽,增加屬性維度,方便其更靈活使用。
3. 用戶興趣結(jié)構(gòu)化事實標(biāo)簽
?
上圖展示了事實標(biāo)簽,主要分為了顯式行為和隱式行為,基本可以通過這些行為去判斷用戶對某一內(nèi)容或主題的偏好程度。其中顯式行為可以直觀表現(xiàn)用戶的偏好,而隱式行為雖不能直觀表現(xiàn)用戶態(tài)度,但對于應(yīng)用場景而言是有意義的統(tǒng)計數(shù)據(jù)。
03 基于內(nèi)容聚類的用戶興趣分群探索
我們通過以上方法對用戶進(jìn)行打標(biāo)之后,如何針對性的做一些內(nèi)容推送或者運(yùn)營策略?
1. 用戶興趣圈層分類方法

我們常用的對用戶進(jìn)行分組的思維通常是基于用戶屬性,根據(jù)人口統(tǒng)計學(xué)的思想分為少男/少女、男青年/女青年、中高齡等人群。這種分法對于內(nèi)容平臺不夠有針對性,因此可以采用第二種圈層方法——基于內(nèi)容屬性進(jìn)行興趣圈層。具有以下優(yōu)勢:
- 通過算法發(fā)現(xiàn)看似完全不同內(nèi)容之間意想不到的關(guān)聯(lián)性。
- 對于內(nèi)容運(yùn)營,可為人工運(yùn)營場景提供數(shù)據(jù)支持。
- 對于內(nèi)容供給規(guī)劃方,可將純業(yè)務(wù)經(jīng)驗驅(qū)動轉(zhuǎn)變?yōu)榇髷?shù)據(jù)驅(qū)動。
2. 圈層聚類方法

對于圈層聚類,首先是對內(nèi)容進(jìn)行聚類,如果兩個內(nèi)容的受眾群體的重合度較高意味著內(nèi)容的相似度較高,可劃分為同類內(nèi)容。利用用戶圈層聚類系統(tǒng),可客觀、精準(zhǔn)定位目標(biāo)人群,具有以下優(yōu)勢:
- 客觀觀影行為:基于用戶真實播放行為為依據(jù),避免了打標(biāo)過程中人的先知經(jīng)驗判斷,更加客觀。
- 顆粒度可控:圈層劃分粒度可根據(jù)業(yè)務(wù)需求進(jìn)行選擇,例如規(guī)劃可以選擇粗粒度,運(yùn)營方則可選擇更細(xì)的粒度。
- 數(shù)據(jù)獲取便捷:可利用算法自動聚類圈人。
?
通過經(jīng)典的相似度計算方法可以計算不同內(nèi)容專輯的用戶相似度,但在實際應(yīng)用中會碰到很多問題,因此通過以下修正提升任意兩個內(nèi)容之間重合度的可比性:
- 修正1:修正內(nèi)容體量差異、頻道規(guī)模差異對用戶重合度計算的影響。
- 修正2:修正內(nèi)容上線時間早晚、上線時間間隔對用戶重合度計算的影響。

在上述優(yōu)化方法的基礎(chǔ)上,還可以采用層次聚類等聚類方法進(jìn)行更深層次的優(yōu)化。通過剪枝線的滑動,控制內(nèi)容聚合的顆粒度,通過計算兩兩內(nèi)容的用戶相似度,將用戶最相似的內(nèi)容先聚在一起,依次向上聚集。

以上是一個例子,分別采用了內(nèi)容聚類方法和標(biāo)簽的方法進(jìn)行的分類。左圖是對于某興趣圈層用戶聚類得到的內(nèi)容,右圖是通過傳統(tǒng)標(biāo)簽打標(biāo)分類得到??梢园l(fā)現(xiàn)左圖的綜合歸納的內(nèi)容和用戶特征是可以推測出用戶的核心訴求,即求追經(jīng)典、優(yōu)質(zhì)IP等,內(nèi)容形成一定價值體系,在娛樂同時可以向觀眾輸出觀點(diǎn)、產(chǎn)生火花碰撞。與右圖的純類別分類方法相比,更加符合用戶需求。
04 問答
Q1:怎么衡量用戶標(biāo)簽的業(yè)務(wù)落地和收益?
A1:在愛奇藝團(tuán)隊中主要應(yīng)用在兩個方向,一個是人工運(yùn)營和規(guī)劃上,一個是與算法結(jié)合的一些模型應(yīng)用上以及用戶畫像挖掘等方向。收益可以體現(xiàn)在利用線上ABTEST得到數(shù)據(jù)效果,以及人工運(yùn)營的投放和活動上。
Q2:用戶聚類和推薦算法之間是個什么關(guān)系?
A2:用戶聚類的結(jié)果會作為信號直接輸入到算法團(tuán)隊,但在推薦層面,模型中其實已經(jīng)包含大量用戶行為和內(nèi)容選擇的信號輸入,原始數(shù)據(jù)中,已經(jīng)體現(xiàn)了這類用戶行為的數(shù)據(jù)信息。這個內(nèi)容聚類更多是從業(yè)務(wù)的角度,相對于打標(biāo)的方法幫助業(yè)務(wù)方更好理解其聚類過程。
Q3:如何甄別用戶在某興趣圈層是否為核心人群或邊緣人群?
A3:如采用傳統(tǒng)權(quán)重標(biāo)簽的方法,可以直接通過權(quán)重就能表現(xiàn)標(biāo)簽的偏好程度。而對于內(nèi)容聚類的層面,例如二次元,天然形成一堆相似內(nèi)容,運(yùn)營便可以精準(zhǔn)投放到該類內(nèi)容背后的用戶。
Q4:一些高熱度節(jié)目會不會對于用戶重疊度分析上帶來偏差?
A4:這個問題就是上文提到的關(guān)于內(nèi)容體量的相似度修正,對于體量特別大和特別小的內(nèi)容需要計算兩兩內(nèi)容用戶重合度的基準(zhǔn)值(期望),去除內(nèi)容體量的影響。
今天的分享就到這里,謝謝大家。


