A/B Testing: come condurre esperimenti statisticamente validi (e gli errori da evitare)

Abbiamo avuto modo di esaminare, nel corso dei precedenti articoli, come funziona il test delle ipotesi e come il t-test per due campioni ci permetta di confrontare due gruppi in modo rigoroso. Abbiamo anche costruito intervalli di confidenza, imparato a quantificare l’incertezza delle nostre stime, e visto con il Teorema del Limite Centrale perché tutto questo funziona anche quando i dati non sono normali.

Ma c’è una domanda che, nella realtà operativa di chi fa SEO e marketing, si presenta con una frequenza quasi quotidiana: quale variante funziona meglio? Quale title tag porta più click? Quale landing page converte di più? Quale meta description attira l’attenzione? Non è una domanda accademica: è la domanda che separa le decisioni basate sui dati dalle opinioni travestite da strategie.

La buona notizia è che per rispondere abbiamo già tutti gli strumenti. L’A/B testing non è altro che l’applicazione diretta dei concetti di inferenza statistica che abbiamo costruito passo dopo passo: test delle ipotesi, confronto tra gruppi, significatività. In questo articolo mettiamo tutto insieme.

Leggi tutto “A/B Testing: come condurre esperimenti statisticamente validi (e gli errori da evitare)”

Il Teorema del Limite Centrale: perché la statistica funziona (anche quando i dati non sono normali)

Abbiamo avuto modo di esaminare, nel corso dei precedenti articoli, la distribuzione normale e le sue proprietà. E poi siamo andati avanti: abbiamo costruito intervalli di confidenza, condotto test delle ipotesi, calcolato margini di errore. In tutti questi passaggi, la distribuzione normale era lì, sempre presente, come un filo conduttore silenzioso.

Ma c’è una domanda che forse ci siamo posti senza trovare ancora una risposta soddisfacente: perché la distribuzione normale funziona così bene, anche quando i nostri dati non sono affatto normali? Chi ha detto che il traffico organico, i tassi di conversione o le durate delle sessioni seguano una distribuzione a campana? Nella maggior parte dei casi, non la seguono affatto.

La risposta sta in uno dei risultati più eleganti e potenti di tutta la matematica: il Teorema del Limite Centrale (in inglese Central Limit Theorem, spesso abbreviato in TLC o CLT). È il teorema che, in un certo senso, giustifica l’intera statistica inferenziale.

Leggi tutto “Il Teorema del Limite Centrale: perché la statistica funziona (anche quando i dati non sono normali)”

Intervalli di confidenza: cosa sono, come calcolarli (e cosa NON significano)

Abbiamo avuto modo di esaminare, nel corso dei precedenti articoli, come funziona il test delle ipotesi e come la distribuzione t ci permetta di lavorare anche quando non conosciamo la deviazione standard della popolazione. In entrambi i casi, ci siamo concentrati su una domanda precisa: “posso rifiutare l’ipotesi nulla, sì o no?”

Ma c’è un’altra domanda, altrettanto importante, che nella pratica quotidiana ci poniamo continuamente: quanto vale, con ragionevole approssimazione, il parametro che sto stimando? Non ci basta sapere se la media è diversa da un certo valore; vogliamo sapere dove si trova, con quale margine di incertezza.

Qui entrano in gioco gli intervalli di confidenza (in inglese confidence intervals, spesso abbreviati in IC o CI), uno degli strumenti più utili e al contempo più fraintesi di tutta la statistica inferenziale.

Leggi tutto “Intervalli di confidenza: cosa sono, come calcolarli (e cosa NON significano)”

Un’introduzione all’Analisi delle Componenti Principali (PCA)

L’Analisi delle Componenti Principali (PCA) è una tecnica statistica ampiamente utilizzata per ridurre la complessità di grandi set di dati. Essa mira a diminuire il numero di variabili, trasformando quelle potenzialmente correlate in un insieme più ristretto di variabili non correlate, denominate componenti principali .

Leggi tutto “Un’introduzione all’Analisi delle Componenti Principali (PCA)”