Å identifisere statistiske avvik har stor betydning for søkemotoroptimalisering og maskinlæringsteknologien hvor kvaliteten på innhentede data er avgjørende for videre handling.

De mest vanlige årsakene til avvik i SEO:

For eksempel har vi et datasett med verdiene 1, 2, 3 og 34. Middelverdien (10) er høyere enn flertallet av dataene (1, 2 og 3) som blir påvirket av den ekstreme verdien (34). I dette tilfellet får gjennomsnittsverdien det til å se ut som at verdiene er høyere enn de egentlig er. Man bør undersøke avvikene fordi de kan gi nyttig informasjon om prosessen.

Det er som oftest enklere å identifisere statistiske avvik ved å legge dataene inn i et spredningsplott.

Fjern statistiske avvik

La oss se på ordtelling som en faktor for de 10 første resultatene for søket «søkemotoroptimalisering». Her ser vi en graf som har en økende trend mot posisjon #1, men posisjon #4 er et åpenbart avvik i datasettet.

Eksempel med statistiske avvik

Ved å fjerne avviket i datasettet får vi en helt annen trendlinje, hvor det korrelerer mot en lavere ordtelling mot posisjon #1 og mer i en MC4 optimalisert retning.

Eksempel uten statistiske avvik