Abbiamo avuto modo di esaminare, nel corso di questo percorso, strumenti per descrivere i dati, per testare ipotesi, per costruire modelli. Ma c’e’ una domanda che precede tutte le altre, e che troppo spesso viene ignorata: questi dati sono affidabili?
In qualsiasi dataset — sessioni giornaliere, click organici, tassi di conversione — possono nascondersi valori che non si comportano come gli altri. Valori che si discostano in modo anomalo dal resto della distribuzione. In statistica li chiamiamo outlier, o valori anomali.
Un punto va chiarito subito: un valore anomalo non e’ necessariamente un errore. Puo’ essere un errore di misurazione, certo (un tag di tracciamento rotto, un bot che gonfia le sessioni). Ma puo’ anche essere il segnale piu’ importante dell’intero dataset: un aggiornamento dell’algoritmo di Google, un contenuto che diventa virale, un problema tecnico che abbatte il traffico. La questione non e’ eliminare le anomalie, ma riconoscerle — e poi decidere cosa farne.
In questo articolo esaminiamo tre metodi statistici per identificare i valori anomali, dal piu’ intuitivo al piu’ formale. Per ciascuno vedremo la logica, i limiti e l’applicazione pratica con R.
Leggi tutto “Anomaly detection: come identificare valori anomali nei dati”