數據分析陷阱

不要被數據所迷惑:4數據分析陷阱以及如何避免這些陷阱
Analytics(分析)
作者的觀點完全是他或她自己的觀點(不包括不太可能的催眠事件)並且可能並不總是反映出Moz的觀點。
數字營銷是一個自豪的數據驅動領域。然而,特別是作為八拓科技有限公司. SEO,我們經常會有這樣的不完整或有問題的數據,在我們試圖證實我們的論點或量化我們的問題和機會時,我們最終會得出錯誤的結論。

在這篇文章中,我將概述我們行業中流行的4個數據分析陷阱,以及如何避免這些陷阱。

1.跳到結論
今年早些時候,我進行了圍繞品牌知名度的排名因素研究,我發布了這個警告:

“…… Domain Authority(或品牌搜索量或其他任何內容)與排名正相關的事實可能表明以下任何或所有可能:
鏈接導致網站排名很好
排名很好會導致網站獲得鏈接
第三個因素(例如網站的聲譽或年齡)會導致網站獲得鏈接和排名“
〜我

但是,我想更深入地討論這個問題並給你一個自己分析這個問題的框架,因為它仍然會出現很多。以Stone Temple最近的研究為例,你可能已經在Moz Top 10或Rand的推文中看到過,或者這篇優秀的文章討論了SEMRush最近的直接流量調查結果。為了絕對清楚,我不批評任何一項研究,但我確實想提請注意我們如何解釋它們。

首先,我們確實傾向於遭受一點確認性偏見 – 當我們看到關鍵字填充成功的網站時,我們都急於說出陳詞濫調“相關性與因果關係”的區別,但是當我們看到研究正在進行時,我們都非常贊同與我們認為或有效的東西一樣,如鍊接。

其次,我們沒有批判性地分析潛在的機制。選項不僅僅是因果關係或巧合。

在根據相關性得出結論之前,您必須考慮各種可能性:

完全巧合
反向因果關係
聯合因果關係
線性
廣泛的適用性
如果那些沒有任何意義,那那就足夠了 – 他們是行話。我們來看一個例子:

在我警告你不要吃奶酪因為你可能會死在你的床單之前,我不得不檢查它是不是以下任何一種:

完全巧合 – 是否有可能將這麼多數據集進行比較,有些數據集必然相似?為什麼,這正是Tyler Vigen所做的!是的,這是可能的。
反向因果關係 – 我們有可能錯誤地解決這個問題嗎?例如,也許你的親戚在為你的床單相關死亡而哀悼時,大量吃奶酪來安慰自己?這似乎不太可能,所以讓我們給它一個通行證。不,這是不太可能的。
聯合因果關係 – 是否有可能第二個因素落後於這兩個因素?也許增加富裕會使你更健康(所以你不會因為營養不良而死),還會讓你吃更多的奶酪?這似乎很合理。是的,這是可能的。
線性 – 我們比較兩個線性趨勢嗎?線性趨勢是穩定的增長或下降速度。隨時間推移大致呈線性關係的任何兩個統計數據都將非常相關。在上圖中,我們的統計數據呈線性上升趨勢。如果用不同的尺度繪製圖形,它們可能看起來完全不相關,就像這樣,但由於它們都具有穩定的速率,它們仍然是非常好的相關性。是的,這很可能。
廣泛的適用性 – 這種關係是否可能僅存在於某些利基場景中,或者至少不存在於我的利基場景中?也許,例如,奶酪對某些人這樣做了,這足以創造這種相關性,因為除此之外,床單纏繞的死亡人數如此之少?是的,這似乎是可能的。