Il Teorema del Limite Centrale: perché la statistica funziona (anche quando i dati non sono normali)

Abbiamo avuto modo di esaminare, nel corso dei precedenti articoli, la distribuzione normale e le sue proprietà. E poi siamo andati avanti: abbiamo costruito intervalli di confidenza, condotto test delle ipotesi, calcolato margini di errore. In tutti questi passaggi, la distribuzione normale era lì, sempre presente, come un filo conduttore silenzioso.

Ma c’è una domanda che forse ci siamo posti senza trovare ancora una risposta soddisfacente: perché la distribuzione normale funziona così bene, anche quando i nostri dati non sono affatto normali? Chi ha detto che il traffico organico, i tassi di conversione o le durate delle sessioni seguano una distribuzione a campana? Nella maggior parte dei casi, non la seguono affatto.

La risposta sta in uno dei risultati più eleganti e potenti di tutta la matematica: il Teorema del Limite Centrale (in inglese Central Limit Theorem, spesso abbreviato in TLC o CLT). È il teorema che, in un certo senso, giustifica l’intera statistica inferenziale.

Leggi tutto “Il Teorema del Limite Centrale: perché la statistica funziona (anche quando i dati non sono normali)”

Intervalli di confidenza: cosa sono, come calcolarli (e cosa NON significano)

Abbiamo avuto modo di esaminare, nel corso dei precedenti articoli, come funziona il test delle ipotesi e come la distribuzione t ci permetta di lavorare anche quando non conosciamo la deviazione standard della popolazione. In entrambi i casi, ci siamo concentrati su una domanda precisa: “posso rifiutare l’ipotesi nulla, sì o no?”

Ma c’è un’altra domanda, altrettanto importante, che nella pratica quotidiana ci poniamo continuamente: quanto vale, con ragionevole approssimazione, il parametro che sto stimando? Non ci basta sapere se la media è diversa da un certo valore; vogliamo sapere dove si trova, con quale margine di incertezza.

Qui entrano in gioco gli intervalli di confidenza (in inglese confidence intervals, spesso abbreviati in IC o CI), uno degli strumenti più utili e al contempo più fraintesi di tutta la statistica inferenziale.

Leggi tutto “Intervalli di confidenza: cosa sono, come calcolarli (e cosa NON significano)”

Un’introduzione all’Analisi delle Componenti Principali (PCA)

L’Analisi delle Componenti Principali (PCA) è una tecnica statistica ampiamente utilizzata per ridurre la complessità di grandi set di dati. Essa mira a diminuire il numero di variabili, trasformando quelle potenzialmente correlate in un insieme più ristretto di variabili non correlate, denominate componenti principali .

Leggi tutto “Un’introduzione all’Analisi delle Componenti Principali (PCA)”

Come usare gli Alberi Decisionali per classificare i dati

Gli Alberi Decisionali sono un tipo di algoritmo di apprendimento automatico che utilizza una struttura ad albero per suddividere i dati in base a delle regole logiche e prevedere la classe di appartenenza di nuovi dati. Sono facili da interpretare e adattabili a diversi tipi di dati, ma possono anche soffrire di problemi come l’overfitting, la complessità e lo sbilanciamento.
Vediamo di capirne un po’ di più e di esaminare un semplice esempio d’uso in R.

Leggi tutto “Come usare gli Alberi Decisionali per classificare i dati”