編輯導語:當我們麵對繁雜的業務數據時,我們需要對數據進行處理、篩選、整理,否則數據隻能是數據,而不能成為輔助我們推進下一步業務的依據。那麼數據分析人員可以采納什麼方法進行數據整理?本文作者就數據處理、及數據分析的常見方法做瞭闡述,一起來看一下吧。
編輯導語:當我們麵對繁雜的業務數據時,我們需要對數據進行處理、篩選、整理,否則數據隻能是數據,而不能成為輔助我們推進下一步業務的依據。那麼數據分析人員可以采納什麼方法進行數據整理?本文作者就數據處理、及數據分析的常見方法做瞭闡述,一起來看一下吧。
本文針對性地講講數據分析整個流程最關鍵的階段:數據處理與分析階段。該階段我分成瞭三塊:數據采集、數據處理、數據分析,都圍繞著“數據”進行,對海量或雜亂數據進行處理分析,從中找齣痛點,洞察問題。
一、數據采集
該處的數據采集指的是獲取分析所需要的數據,一般可以從內部數據、外部數據兩個方嚮獲取。
1. 內部數據
1)直接獲取
直接獲取的前提是,公司進行瞭數據倉庫的建設,已為決策分析提供瞭所有類型數據支持。該部分內容在之前的文章中也提到過,但是在這裏更加細化地做瞭點補充。
直接獲取就是指數據庫中有現成的錶可以直接獲取到所需的數據,不需要分析師再在sql上做復雜的處理。
公司一般會將數據分為ods、dwd、dwb/dws層數據。
- ods層:明細數據。數倉不做任何數據處理,直接原封不動地將數據同步到該庫上。為dw層的數據加工作準備。
- dwd層:明細數據。該層數據已在ods層上對數據做瞭清洗操作,比如去除空值、髒數據等。
- dwb/dws層:聚閤數據。主要對ods/dwd層的數據做些輕度匯總,會涉及較多業務指標數據。如根據ods/dwd層的明細數據計算齣七日復購率、周同期對比數據、毛利率等指標供分析師直接查詢使用。
一般情況下,分析可以直接從dwb/dws層調取現成的指標數據進行分析,特殊情況下也可以從dwd層寫復雜sql的方式計算成所需的數據。
2)重新落錶獲取
前提是dwb/dws層沒有現成的數據可以直接獲取,哪怕自己寫代碼可以從dwd層獲取,也需要寫很復雜的代碼。此時,請數倉協助落成聚閤錶再去調取數據。
重新落錶一般會涉及人力資源的協調,需求的溝通。分析師擔當業務方和數倉之間的橋梁,將業務方的需求理清楚之後,自身又作為數倉的需求方對數倉提需求。
2. 外部數據
當分析的內容內部數據無法滿足時,或者不夠全麵時,此時需要藉助於外部數據來輔助分析。
1)行業報告數據
比如艾瑞網、極光大數據、阿裏研究所、199IT互聯網數據中心等都會時不時的發一些行業分析報告。整個行業的數據公司內部是無法獲取的,所以可以從一些行業分析報告入手。
2)問捲采集
比如我們需要獲取用戶的一些:
通過問捲數據獲取一些産品中無法獲得的數據,輔助分析。
3)宏觀數據
有時候我們分析的某個指標有時候也會受到宏觀政策的影響,比如宏觀上某項指標上調瞭xx,對我們的業務會産生怎樣的影響。
二、數據處理
對分析師而言,這步需要分析師將數據根據腦中的分析框架處理成所需要的數據。
1. 處理內容
會涉及數據異常值處理、缺失值處理、數據轉換、數據聚閤、數據分組歸類以及數據準確性的校驗,為下一步的數據分析奠定好基礎。
井井有條的數據更有利於分析:
- 剔除無效數據,比如異常值、缺失值、重復值等。
- 考慮清楚數據聚閤的維度,比如時間上、地域上、用戶上、商品上等按照什麼維度聚閤。
- 做好數據聚閤的處理,比如需要藉助開窗函數,是否需要去重計數,是否需要纍積計數等。
數據采集到之後,還要做好數據驗證,目的是確保數據準確性,切忌拿到數據立馬動手分析。
1)從驗證人員來看
自身多方驗證:初始先自身驗證一番,與現有報錶中已有數據進行對比,觀察是否一緻。
與需求方協同驗證:數據調取之後先齣一份數據錶,提供給需求方共同驗證。不過分析師接瞭需求,保證數據準確性是基本要素,一般情況下需求方並不會協同驗證。前提是,無現有數據可供對比查驗,可將數據先提供給需求方過一眼,確保數據準確無誤。
2)從驗證方式來看
定性驗證:通過經驗或邏輯推理,主觀判斷該數據是否符閤經驗或正常邏輯,比如你取到的某個商品的gmv比整個品類的gmv還要大,就不符閤正常邏輯,肯定有誤。
定量驗證:依據統計方式,計算齣具體的指標,多方交叉驗證。
三、數據分析——七大分析方法
數據分析方法很多,網上有很多資料,這裏就講一下其中比較常用的幾種分析方法。
1. 關聯規則分析
關聯規則分析其實就是購物籃分析,就是通過挖掘用戶的消費行為數據,探索用戶的消費習慣,從而閤理搭配商品,提升收益。
舉個簡單的例子,近30天共産生瞭10筆訂單(方便計算隻虛構瞭10筆),1代錶訂單中包含該商品,0代錶訂單中未包含商品,比如111112訂單,用戶沒有買蘋果,但買瞭香蕉(是否買瞭其他商品不考慮)。
其中購買瞭蘋果的訂單有6筆,購買瞭香蕉的有5筆,同時購買瞭蘋果和香蕉的有3筆。
則:
① 蘋果和香蕉組閤的支持度
=同時購買瞭蘋果和香蕉的訂單數/總訂單數*100%
=3/10*100%
=30%
含義:同時購買蘋果和香蕉的概率有多大。
② 蘋果對香蕉的置信度
=同時購買瞭蘋果和香蕉的訂單數/購買瞭蘋果的訂單數*100%
=3/6*100%
=50%
含義:購買瞭蘋果的用戶有多大概率會再買香蕉。
③ 蘋果對香蕉的提升度
=蘋果對香蕉的置信度/購買香蕉的概率
=50%/(5/10)
=1
含義:購買蘋果對購買香蕉會産生正嚮影響還是負嚮影響還是無影響。
此案例中計算的提升度是1,錶示購買蘋果並不會對購買香蕉産生任何影響。
詳細解釋下:
- 若提升度=1:錶示購買蘋果並不會對購買香蕉産生任何影響,因為在購買瞭蘋果的條件下去買香蕉的概率和直接買香蕉的概率是一樣的;
- 若提升度>1:錶示購買蘋果對購買香蕉産生瞭正嚮影響,即購買蘋果很大可能也會買香蕉,因為在購買瞭蘋果的條件下去買香蕉的概率大於直接買香蕉的概率;
- 若提升度<1:錶示購買蘋果對購買香蕉産生瞭負嚮影響,即購買蘋果很大可能就不會買香蕉,因為在購買瞭蘋果的條件下去買香蕉的概率小於直接買香蕉的概率。
這就是關聯規則分析,一般用以研究探索商品捆綁銷售,比如蘋果是否需要和香蕉在一起捆綁銷售,捆綁銷售收益是否會更大。
2. RFM模型
RFM模型主要用來衡量用戶價值,做用戶分群,比如區分齣低價值用戶、高價值用戶、忠誠用戶等用戶群體。
- R:用戶最近一次消費距今時間(Recency);
- F:用戶在最近時間段內的消費頻次(Frequency);
- M:用戶在最近時間段內的消費金額(Monetary)。
這裏用一個比較簡單的例子講下:
先對R、F、M三個值進行分層並賦予權重(以下數據純屬虛構,分層時根據實際情況)。
比如用戶最近一次消費距今時間7天以下的打為5分,8-14天的打為4分……以此類推。分數高的錶示價值性比較高,分數低的錶示價值性比較低。
然後調取齣每個用戶R、F、M值,填入“按照均值處理前”列中。
比如下圖中,用戶“111113”最近一次消費距今時間在7天以下,則R為5,在最近時間段內的消費頻次在6-10之間,則F為2,在最近時間段內的消費金額在1001-2000之間,則M為2。
再將每個用戶的R、F、M值與均值對比,大於均值填充1,小於均值填充0,填充於”按照均值處理後“列中。
最後將“按照均值處理後”的數據參照下圖模型錶(下圖不是計算齣來的,是比較常用的標準),匹配齣用戶類型。
給用戶匹配之後的用戶價值類型如下:
3. 帕纍托分析
帕纍托分析就是“二八法則”。
“二八法則”認為80%的財富掌握在20%的人手裏,應用到業務中就是,80%的營收在20%的産品裏,同理,我們應該花80%的時間內在這20%的産品上。也就是說,寶貴的時間與資源應該用在刀刃上。
如下圖:展示瞭每個品類的銷售額,通過銷售額計算齣銷售額纍積值,進而算齣纍積百分比。
再通過銷售額和纍積百分比畫齣帕纍托圖,如下。
共15種品類,其中7個品類貢獻瞭80%的銷售額,占比46.67%,也就是說46.67%的商品為公司帶來瞭80%的銷售額,並不符閤二八定律,該公司並沒有強勢産品。
4. 用戶生命周期價值分析
用戶生命周期總價值,主要用於衡量用戶對産品産生的價值。
以一個案例講解如下:
下圖是一張留存率圖。
以2021.12.01——2021.12.07之間的七天留存率來預估14日留存、30日留存等。
先將黃色部分的七天的留存率取均值,得到圖上最下方的留存平均值。
然後按照留存率的均值做擬閤,擬閤後的結果如下圖所示。
選擇冪函數擬閤,因為冪函數擬閤的R方接近於1,擬閤效果較好。
則LT14=100%+51%+53%+37%+32%+29%+29%+25%+23%+22%+20%+19%+18%+17%
=4.75天
LT已經算齣來瞭,那麼下一步就是計算ARPU瞭。ARPU值直接取日均值就可以瞭,假如ARPU日均值是¥60,則LTV=4.75*12=285。
即用戶14天的平均生命周期是4.75天,用戶在該生命周期內能帶來的總價值為¥285。
延伸下,如果想知道花費在這批用戶身上的成本需要多久纔可以迴本,怎麼計算呢?這就涉及到瞭迴本周期預估。
比如在前麵已經預估瞭LTV14為¥285,假如已知該渠道的CAC是¥30。
則預估的迴本周期是=285/30=9.5天,即投入在該群用戶身上的成本需要9.5天方可迴本。
5. 漏鬥分析
漏鬥分析是數據分析中比較常見的分析模型。采取漏鬥的方式直觀地錶示業務從起點到終點的各個環節的轉化情況,以便找齣有問題的環節,針對性的優化。
如下圖,展示瞭用戶支付場景的轉化率:用戶從打開APP到完成支付的過程。分為進入首頁→進入商詳頁→加入購物車→提交訂單→支付完成,直觀分析每個重要環節的轉化率。以最直觀最簡單的方式反映齣每個關鍵環節的轉化率,洞察主要問題所在。
6. 波士頓矩陣
波士頓矩陣不少人在大學期間學過,工作中也是比較實用的。可通過波士頓矩陣分析公司的産品結構,發現痛點,為是否需要及時調整戰略目標,以及判斷産品的資源分配是否閤理提供瞭數據支持。
波士頓矩陣有以下4種結構類型:
7. AARRR模型
AARRR模型是探索用戶增長的模型。分彆對應用戶生命周期的5個環節:用戶獲取、用戶激活、用戶留存、用戶變現、推薦傳播。
四、結語
以上就是圍繞著“數據”進行的采集、處理與分析的過程,這個過程起著承上(需求確認)啓下(數據展現)的作用,重要性不言而喻。
數據分析的知識點很廣闊,我寫的這些也隻是其中的非常小的一小部分。但經驗與專業性就是從小起步的,一點點積纍,一點點成長。
作者:Janie Liu;公眾號:溜溜筆記說
本文由 @溜溜筆記說 原創發布於人人都是産品經理。未經許可,禁止轉載
題圖來自Pexels,基於CC0協議
責任編輯: