客戶數據平臺(CDP)中什么樣的大數據能被建模提升營銷效率?

客戶數據平臺(CDP)中什么樣的大數據能被建模提升營銷效率?今天我們講一個很多用戶建模背后都需要考慮的問題:什么樣的大數據才能被AI算法使用建立模型提升營銷效率呢?我們嘗試給一個最簡單直觀的判斷原則。

我們前面談了一些用戶需求和第三方數據,一個普遍的需求是:能不能用第三方數據提升營銷的效率?或者是從大量號碼列表中找到精準的客戶,降低電話的成本;或者是找到更多的精準客戶,降低廣告投放的成本,提升轉化的效率,等等。

在回答這個問題之前,我們先談從什么角度觀察大數據里的數據,然后再給出判斷原則。對于任何大數據,我們首先看大數據里的屬性(列/字段/標簽)反映的是“事實”還是“觀點”。舉例來說,屬性“身份證號碼”,如果數據準確,就是一個典型的“事實”,從這個“事實”能夠派生出性別、年齡、地區等信息。屬性“游戲用戶”,就是“觀點”。打上游戲用戶標簽的原因,可能是瀏覽過網游內容,下載過網游APP等等。但是,形成這個觀點的行為是事實。比如,如果有這個屬性“下載網游APP”,記錄APP下載的時間、類別、名稱,這些細節數據是事實。因此,觀點是基于多粒度事實的判斷。從這個意義上說,我們前面講的興趣標簽,基本都是“觀點”數據。當然,也有復雜的情況,比如“性別”屬性,如果是從身份證推出的,能確定是準確的,就是事實,如果是從瀏覽行為推出的預測數據,就是觀點。這里講一個我們測試的實際的數據,我們將公司所有員工的手機設備號信息提交給某大數據服務商,觀察打出的標簽信息,在性別屬性上,多次測試,準確性只有50%左右,和猜差不多。這個“性別”就是觀點。


判斷原則就是:只有基于“事實”的大數據,才有可能建模提升營銷效率。“事實”的維度越高,時間越及時,粒度越細,價值越大。

觀點數據為什么不適合呢?從兩個邏輯來看,一是現在優化算法基本都是高維甚至超高維的,而第三方數據基本是“低維”粗粒度”的數據,用低維的觀點數據補充高維的事實數據,去建模,本身邏輯就是有問題的;第二是觀點數據是事實數據的抽象和概述,我們從上面“性別”字段就能看出,準確性比較差,難以滿足模型提升的需求。再舉個例子,某人在8月份看了一頁有某A品牌汽車的介紹網站,又看了幾十頁關于B品牌汽車的內容,那么該用戶會被打上“A”、“B”、“汽車”的標簽。我們很容易發現問題,標簽的粒度、時間新鮮度、準確性都無法有效保障。建模需要的是底層細節粒度的事實數據,比如“觀看時間”,“A”“A的次數”,“A網站停留時長”“B”,“B的次數”,“B網站停留時長”等。

這樣,我們就能直觀理解,為什么拿一些第三方的所謂標簽大數據,對于建模沒有價值,原因就是這些數據是“觀點”數據,欠缺細粒度的及時的事實信息。同樣,也能理解,為什么將人群提交到大平臺,大平臺利用初始的人群建模,是能提升效率的。原因就是,大平臺對這部分人群,用了最底層的細粒度的事實數據建模。

總結來說,對提升模型而言,需要細節粒度的、及時的、事實數據,而不是抽象的高層級的觀點數據。這是一個直觀簡單的判斷原則。