午夜免费一区,亚洲国产精品va,国产精品青草综合久久久久99

愛奇藝商業(yè)智能部門總監(jiān)陸祁女士將介紹愛奇藝在用戶興趣分群上的探索和實踐，主要介紹如何基于數(shù)據(jù)科學(xué)進(jìn)行用戶興趣分群，如何基于事實數(shù)據(jù)生成用戶興趣標(biāo)簽，以及介紹算法驗證和迭代的思路，最后介紹如何基于用戶聚類的方法去做用戶興趣分群。

全文將圍繞下面三點(diǎn)展開：

數(shù)據(jù)科學(xué)VS用戶興趣分群
基于事實生成的用戶興趣標(biāo)簽
基于內(nèi)容聚類的用戶興趣分群探索

01 數(shù)據(jù)科學(xué)VS用戶興趣分群

首先通過下圖介紹一下數(shù)據(jù)科學(xué)專家的能力范圍。

注：圖片來源于網(wǎng)絡(luò)，侵權(quán)刪?

數(shù)據(jù)科學(xué)家的能力主要由三方面：較強(qiáng)的數(shù)學(xué)功底和數(shù)字敏感程度、很強(qiáng)的問題解決能力（包括數(shù)據(jù)分析、數(shù)據(jù)建模和數(shù)據(jù)處理等能力）、很強(qiáng)的業(yè)務(wù)溝通能力。

雖然數(shù)據(jù)科學(xué)家面對的業(yè)務(wù)是比較個性化的，但是我們今天將提煉出一個較為通用且具有借鑒意義的課題進(jìn)行分享——用戶興趣分群，其本質(zhì)是通過大數(shù)據(jù)的挖掘和分析，反映出用戶對某個主題或事物不同程度的匹配價值和接受程度。其在互聯(lián)網(wǎng)的各行各業(yè)中是比較適用的，例如電商行業(yè)、服務(wù)行業(yè)、內(nèi)容行業(yè)等，也可以應(yīng)用到一些算法場景提高其準(zhǔn)確度和效果，例如廣告搜索推薦、運(yùn)營策略等。

02 基于事實生成的用戶興趣標(biāo)簽

1. 用戶興趣權(quán)重標(biāo)簽如何設(shè)計？

為了解不同用戶的興趣，采用最典型的方式就是給用戶打標(biāo)?；诓煌瑯I(yè)務(wù)的認(rèn)知，所提煉出的維度是各異的，但提取的流程類似，例如愛奇藝平臺這類內(nèi)容行業(yè)通常按照以下幾步提取用戶興趣偏好標(biāo)簽：

基于業(yè)務(wù)認(rèn)知研究主題：選取不同興趣的主題，例如視頻內(nèi)容、視頻類型、相關(guān)明星、播放頻道、播放時間以及價格等。
基于以上主題梳理用戶行為：用戶會通過一些觀影和互動等行為表現(xiàn)出對某一主題的傾向性，例如明星偏好，則可能存在關(guān)注、發(fā)彈幕評論、觀看相關(guān)視頻等行為。
選取合適的維度和計算方法量化用戶行為：對于用戶各種顯式和隱式行為，需要一套合理的指標(biāo)體系進(jìn)行量化。針對觀影行為，可以從觀影次數(shù)、觀影時長等維度進(jìn)行量化。
數(shù)據(jù)處理：在建立這個體系的過程中，對不同的指標(biāo)采用加權(quán)、降權(quán)、時間衰減、起始值等方法使量化結(jié)果更加合理科學(xué)。經(jīng)過數(shù)據(jù)權(quán)重等方法處理后，得到一個總和的權(quán)重，還需要將其進(jìn)行0—1的歸一化處理，如果有負(fù)向指標(biāo)，可以做-1—1的置信度處理。

通過以上方法得到的結(jié)果，便可以反應(yīng)用戶的偏好傾向，得分越高表示該用戶對于該主題的偏好更加強(qiáng)烈。

2. 用戶興趣標(biāo)簽的驗證與迭代

上面介紹了生成標(biāo)簽的流程方法。在使用該標(biāo)簽之前，我們還需要審視一下這個標(biāo)簽的適用性，例如上述提到的可比性問題。將標(biāo)簽引入到不同業(yè)務(wù)之前需要進(jìn)行審視和驗證。

對于標(biāo)簽的驗證，主要有兩種方法：?

盲測用戶問卷：收集用戶反饋，例如用戶對明星喜好進(jìn)行判斷，便可提供整個權(quán)重的校準(zhǔn)依據(jù)，基于此檢驗排序性，判斷標(biāo)簽合理性。
線上不同場景ABTEST：上線權(quán)重標(biāo)簽前可在內(nèi)容過濾、排序等模型上進(jìn)行測試，利用實驗對照組觀察能否帶來明顯提升或正向效果，利用ABTEST的結(jié)果修正權(quán)重設(shè)計。

權(quán)重標(biāo)簽更多的是做用戶中長期的偏好計算，對于即時愛好的計算需要采用事實標(biāo)簽。權(quán)重標(biāo)簽也存在一些短板：

權(quán)重解釋性：權(quán)重標(biāo)簽生成過程中，難免進(jìn)行一下復(fù)雜的數(shù)據(jù)處理，使得該標(biāo)簽對于業(yè)務(wù)方而言不夠簡單明了。
每天全量decay：有些數(shù)據(jù)會融合各種衰減計算，使計算復(fù)雜度更高。
不適合實時場景：對于每天實時發(fā)生的行為數(shù)據(jù)難以及時更新到權(quán)重標(biāo)簽中去，這樣的數(shù)據(jù)標(biāo)簽存在滯后性。

對于一些個性化的場景，會考慮給業(yè)務(wù)方提供事實標(biāo)簽，增加屬性維度，方便其更靈活使用。

3. 用戶興趣結(jié)構(gòu)化事實標(biāo)簽

上圖展示了事實標(biāo)簽，主要分為了顯式行為和隱式行為，基本可以通過這些行為去判斷用戶對某一內(nèi)容或主題的偏好程度。其中顯式行為可以直觀表現(xiàn)用戶的偏好，而隱式行為雖不能直觀表現(xiàn)用戶態(tài)度，但對于應(yīng)用場景而言是有意義的統(tǒng)計數(shù)據(jù)。

03 基于內(nèi)容聚類的用戶興趣分群探索

我們通過以上方法對用戶進(jìn)行打標(biāo)之后，如何針對性的做一些內(nèi)容推送或者運(yùn)營策略？

1. 用戶興趣圈層分類方法

我們常用的對用戶進(jìn)行分組的思維通常是基于用戶屬性，根據(jù)人口統(tǒng)計學(xué)的思想分為少男/少女、男青年/女青年、中高齡等人群。這種分法對于內(nèi)容平臺不夠有針對性，因此可以采用第二種圈層方法——基于內(nèi)容屬性進(jìn)行興趣圈層。具有以下優(yōu)勢：

通過算法發(fā)現(xiàn)看似完全不同內(nèi)容之間意想不到的關(guān)聯(lián)性。
對于內(nèi)容運(yùn)營，可為人工運(yùn)營場景提供數(shù)據(jù)支持。
對于內(nèi)容供給規(guī)劃方，可將純業(yè)務(wù)經(jīng)驗驅(qū)動轉(zhuǎn)變?yōu)榇髷?shù)據(jù)驅(qū)動。

2. 圈層聚類方法

對于圈層聚類，首先是對內(nèi)容進(jìn)行聚類，如果兩個內(nèi)容的受眾群體的重合度較高意味著內(nèi)容的相似度較高，可劃分為同類內(nèi)容。利用用戶圈層聚類系統(tǒng)，可客觀、精準(zhǔn)定位目標(biāo)人群，具有以下優(yōu)勢：

客觀觀影行為：基于用戶真實播放行為為依據(jù)，避免了打標(biāo)過程中人的先知經(jīng)驗判斷，更加客觀。
顆粒度可控：圈層劃分粒度可根據(jù)業(yè)務(wù)需求進(jìn)行選擇，例如規(guī)劃可以選擇粗粒度，運(yùn)營方則可選擇更細(xì)的粒度。
數(shù)據(jù)獲取便捷：可利用算法自動聚類圈人。

通過經(jīng)典的相似度計算方法可以計算不同內(nèi)容專輯的用戶相似度，但在實際應(yīng)用中會碰到很多問題，因此通過以下修正提升任意兩個內(nèi)容之間重合度的可比性：

修正1：修正內(nèi)容體量差異、頻道規(guī)模差異對用戶重合度計算的影響。
修正2：修正內(nèi)容上線時間早晚、上線時間間隔對用戶重合度計算的影響。

在上述優(yōu)化方法的基礎(chǔ)上，還可以采用層次聚類等聚類方法進(jìn)行更深層次的優(yōu)化。通過剪枝線的滑動，控制內(nèi)容聚合的顆粒度，通過計算兩兩內(nèi)容的用戶相似度，將用戶最相似的內(nèi)容先聚在一起，依次向上聚集。

以上是一個例子，分別采用了內(nèi)容聚類方法和標(biāo)簽的方法進(jìn)行的分類。左圖是對于某興趣圈層用戶聚類得到的內(nèi)容，右圖是通過傳統(tǒng)標(biāo)簽打標(biāo)分類得到?？梢园l(fā)現(xiàn)左圖的綜合歸納的內(nèi)容和用戶特征是可以推測出用戶的核心訴求，即求追經(jīng)典、優(yōu)質(zhì)IP等，內(nèi)容形成一定價值體系，在娛樂同時可以向觀眾輸出觀點(diǎn)、產(chǎn)生火花碰撞。與右圖的純類別分類方法相比，更加符合用戶需求。

04 問答

Q1：怎么衡量用戶標(biāo)簽的業(yè)務(wù)落地和收益？

A1：在愛奇藝團(tuán)隊中主要應(yīng)用在兩個方向，一個是人工運(yùn)營和規(guī)劃上，一個是與算法結(jié)合的一些模型應(yīng)用上以及用戶畫像挖掘等方向。收益可以體現(xiàn)在利用線上ABTEST得到數(shù)據(jù)效果，以及人工運(yùn)營的投放和活動上。

Q2：用戶聚類和推薦算法之間是個什么關(guān)系？

A2：用戶聚類的結(jié)果會作為信號直接輸入到算法團(tuán)隊，但在推薦層面，模型中其實已經(jīng)包含大量用戶行為和內(nèi)容選擇的信號輸入，原始數(shù)據(jù)中，已經(jīng)體現(xiàn)了這類用戶行為的數(shù)據(jù)信息。這個內(nèi)容聚類更多是從業(yè)務(wù)的角度，相對于打標(biāo)的方法幫助業(yè)務(wù)方更好理解其聚類過程。

Q3：如何甄別用戶在某興趣圈層是否為核心人群或邊緣人群？

A3：如采用傳統(tǒng)權(quán)重標(biāo)簽的方法，可以直接通過權(quán)重就能表現(xiàn)標(biāo)簽的偏好程度。而對于內(nèi)容聚類的層面，例如二次元，天然形成一堆相似內(nèi)容，運(yùn)營便可以精準(zhǔn)投放到該類內(nèi)容背后的用戶。

Q4：一些高熱度節(jié)目會不會對于用戶重疊度分析上帶來偏差？

A4：這個問題就是上文提到的關(guān)于內(nèi)容體量的相似度修正，對于體量特別大和特別小的內(nèi)容需要計算兩兩內(nèi)容用戶重合度的基準(zhǔn)值（期望），去除內(nèi)容體量的影響。

今天的分享就到這里，謝謝大家。

国产一级一区二区_segui88久久综合9999_97久久夜色精品国产_欧美色网一区二区

如何基于數(shù)據(jù)科學(xué)進(jìn)行用戶興趣分群？愛奇藝算法驗證和迭代思路公開
2022-08-23 DataFunTalk

01 數(shù)據(jù)科學(xué)VS用戶興趣分群

02 基于事實生成的用戶興趣標(biāo)簽

1. 用戶興趣權(quán)重標(biāo)簽如何設(shè)計？

2. 用戶興趣標(biāo)簽的驗證與迭代

3. 用戶興趣結(jié)構(gòu)化事實標(biāo)簽

03 基于內(nèi)容聚類的用戶興趣分群探索

1. 用戶興趣圈層分類方法

2. 圈層聚類方法

04 問答

延伸閱讀

熱文

国产一级一区二区_segui88久久综合9999_97久久夜色精品国产_欧美色网一区二区

如何基于數(shù)據(jù)科學(xué)進(jìn)行用戶興趣分群？愛奇藝算法驗證和迭代思路公開 2022-08-23 DataFunTalk

01 數(shù)據(jù)科學(xué)VS用戶興趣分群

02 基于事實生成的用戶興趣標(biāo)簽

1. 用戶興趣權(quán)重標(biāo)簽如何設(shè)計？

2. 用戶興趣標(biāo)簽的驗證與迭代

3. 用戶興趣結(jié)構(gòu)化事實標(biāo)簽

03 基于內(nèi)容聚類的用戶興趣分群探索

1. 用戶興趣圈層分類方法

2. 圈層聚類方法

04 問答

延伸閱讀

熱文

如何基于數(shù)據(jù)科學(xué)進(jìn)行用戶興趣分群？愛奇藝算法驗證和迭代思路公開
2022-08-23 DataFunTalk