Statistica descrittiva
In questa lezione ci occuperemo della descrizione statistica dei dati, cioè analizzeremo le loro caratteristiche e i possibili modi di rappresentarli.
Terminologia
[modifica]Oggetto di analisi della statistica è il fenomeno collettivo. L'analisi viene svolta attraverso l'osservazione di un insieme di manifestazioni individuali. È oggetto di osservazione l'unità elementare che è individuata attraverso una caratteristica che lo identifica univocamente. L'osservazione si concretizza attraverso la definizione di caratteri (peso, altezza, età, etc.), relativi a quella unità elementare, valorizzati con le corrispondenti modalità:
- Esempio: il carattere Età, in corrispondenza all'unità elementare Marco, assume la modalità 37.
Una unità elementare che costituisce l'elemento su cui vengono osservati i caratteri oggetto di studio viene definita unità statistica.
Un insieme di unità statistiche omogenee rispetto a una o più caratteristiche costituisce un collettivo statistico o una popolazione.
Dati e scale
[modifica]La prima questione da risolvere sulla popolazione che si vuole analizzare è il tipo di dati che si vuole ottenere, e il tipo di scala su cui questi dati possono essere riportati.
Tipi di dati
[modifica]I dati possono essere distinti in due tipi principali:
- Variabili qualitative o categoriali, quando si tratta di conteggi (ad esempio il numero di macroinvertebrati per ogni specie raccolti in un'analisi di un fiume);
- Variabili quantitative, quando si tratta di valori numerici su scala continua (ad esempio diverse misurazioni della portata del sopracitato fiume).
Tipi di scale
[modifica]A seconda delle caratteristiche dei dati, questi possono essere riportati su una o più scale di tipo diverso:
- Scala nominale o classificatoria, è usata per dividere i dati in classi o categorie, la cui unica proprietà è l'equivalenza tra gli elementi di una stessa classe (ad esempio una scala riportanti le varie specie di macroinvertebrati).
- Scala ordinale o per ranghi, quando oltre all'equivalenza degli elementi all'interno di una stessa classe, è possibile stabilire una relazione di maggioranza/minoranza tra due classi (in pratica è possibile decidere quale viene prima e quale dopo), ma non è ancora possibile determinare l'esatta distanza tra le classi (ad esempio, la scala riportante un ciclo di vita, come uova, larve, adulti)
- Scala ad intervalli, quando oltre alle caratteristiche delle scale precedenti è possibile determinare la distanza tra le classi, ma sulla scala non è presente un valore 0 corrispondente a una quantità nulla (cioè è possibile determinare la distanza tra i valori ma non il loro rapporto). Esempi sono scale di temperature misurate in gradi Celsius o Farenheit (in cui il valore 0 non corrisponde a una temperatura nulla), o una scala di date.
- Scala di rapporti, quando oltre alle caratteristiche delle scale precedenti è presente anche uno zero assoluto, tale da permettere di calcolare il rapporto tra i valori (scale di questo tipo sono ad esempio la temperatura misurata in Kelvin, o la portata di un fiume).
Da una scala più complessa è sempre possibile scendere a una scala più semplice, seppur con perdita di informazioni (ad esempio da una scala di altezze misurate in centimetri è possibile passare ad una scala del tipo basso, medio, alto), mentre di solito non è possibile il contrario.
Classi
[modifica]La prima operazione che è possibile effettuare sulla serie dei dati raccolta nel campionamento, se questa è riportabile almeno su una scala ordinale, è la seriazione: si tratta banalmente di ordinarla in ordine crescente o decrescente. In questo modo è possibile evidenziare i valori massimo e minimo, e di conseguenza individuare il campo di variazione o intervallo di variazione.
Il passo successivo consiste nel dividere la serie di dati in classi, contenenti elementi con la stessa modalità di espressione: nel solito esempio del campione di macroinvertebrati fluviali, le classi corrispondono alle diverse specie riscontrate, e la modalità di espressione di ogni singolo invertebrato esaminato è la sua specie, una classe comprende quindi invertebrati della stessa specie.
Per ogni classe è possibile determinare:
- la frequenza assoluta, cioè il numero di elementi appartenenti alla classe;
- la frequenza relativa, cioè il rapporto tra gli elementi della classe e il totale degli elementi nella serie dei dati;
- la frequenza cumulata (assoluta o relativa), calcolabile se la scala è ordinabile, che è la somma delle frequenze (assolute o relative) di tutte le classi minori con la frequenza della classe stessa.
La frequenza relativa, che normalmente ha l'andamento di una curva a campana, è utile per confrontare serie con un diverso numero di dati; la frequenza cumulata ha invece di norma un andamento a S che tende a 1, e serve per conoscere la percentuale di dati al di sotto o al di sopra di un certo valore.
Medie di posizione
[modifica]Mediana
[modifica]Data una distribuzione X di un carattere quantitativo oppure qualitativo ordinabile (ovvero le cui modalità possano essere ordinate in base a qualche criterio), si definisce la mediana, o mediano, come il valore/modalità (o l'insieme di valori/modalità) assunto dalle unità statistiche che si trovano nel mezzo della distribuzione.
Se si procede al riordinamento delle unità in base ai valori crescenti del carattere da esse detenuto, in sostanza la Mediana bipartisce la distribuzione in due sotto-distribuzioni: la prima a sinistra della Mediana (costituita dalla metà delle unità la cui modalità è minore o uguale alla Mediana) e la seconda a destra della Mediana (costituita dalla metà delle unità la cui modalità è maggiore o uguale alla Mediana). Tecnicamente si afferma che la mediana è il valore/modalità per il quale la frequenza relativa cumulata vale 0,5, cioè il secondo quartile, ossia il 50° percentile. Usualmente si indica la Mediana con Me.
Moda
[modifica]La moda è l'indice di posizione che si riferisce alla modalità con la frequenza assoluta o relativa più alta (per dati grezzi oppure organizzati in tabella), invece quando i dati sono organizzati in classi, non si parla più di moda, ma di classe modale e corrisponde alla densità di frequenza più alta. Questo indice, inoltre, a differenza della media, può essere calcolato anche per variabili qualitative.
Medie algebriche
[modifica]Le medie in statistica descrittiva vengono solitamente dette medie campionarie perché sono frutto dell'analisi di un campione di dati e per distinguerle dalle medie probabilistiche.
Media aritmetica
[modifica]È data dalla somma delle misure osservate diviso il numero delle osservazioni fatte.
Il valor medio è indicato anche come .
Media geometrica
[modifica]La media geometrica di n termini è la radice n-esima del prodotto degli n valori:
La media geometrica si applica a valori positivi.
Una caratteristica è che valori piccoli (rispetto alla media aritmetica) sono molto più influenti dei valori grandi. In particolare, è sufficiente la presenza di un unico valore nullo per annullare la media.
Esempio
[modifica]Dati cinque numeri:
la loro media geometrica è data da:
Media armonica
[modifica]La media armonica di n termini è definita come il reciproco della media aritmetica dei reciproci.
La media armonica semplice rappresenta un caso particolare, nel quale tutti i pesi hanno valore unitario.
La media armonica è fortemente influenzata dagli elementi di modulo minore: rispetto alla media aritmetica risente meno dell'influenza di outlier grandi, ma è influenzata notevolmente dagli outlier piccoli.
Esempio
[modifica]Dati cinque numeri:
la loro media armonica è data da:
Indici di dispersione
[modifica]Anche questi indici, quando riferiti alla statistica descrittiva, sono detti campionari (varianza campionaria, etc.)
Varianza
[modifica]Date n osservazioni di un campione x1, x2, ..., xn, la varianza campionaria (indicata come σ2 o s2) è un indice di quanto i dati siano dispersi rispetto al valor medio :
- .
In particolare, è la media quadratica delle distanze dei valori dalla loro media.
Porre attenzione al fatto che la varianza teorica differirà dalla varianza campionaria solo per il denominatore (che è n per la varianza teorica, e non n-1).
Deviazione standard
[modifica]La deviazione standard campionaria è la radice quadrata della varianza. Solitamente viene indicata con il simbolo σ oppure come s (mentre la varianza come σ2, in quanto è il suo quadrato)
Quantili, percentili, quartili
[modifica]Quantili, percentili e quartili sono valori della popolazione di dati che la dividono in porzioni caratteristiche.
Quantili
[modifica]In statistica il quantile di ordine α è un valore qα che divide la popolazione in due parti, proporzionali ad α e (1-α) e caratterizzate da valori rispettivamente minori e maggiori di qα.
I quantili utilizzati in statistica descrittiva, solitamente denominati quantili empirici.
Ad esempio, in una popolazione {1,4,3,10,6}, ordinata in ordine crescente {1,3,4,6,10}, il q0.7 (quantile di ordine 0.7) è 6 perché esso è il valore che è superiore allo 0.7 (70%) dei dati. Esso divide la popolazione in un 70% a sé inferiore e in un rimanente 30% a sé superiore.
Formalmente in una popolazione di n elementi il quantile di ordine α si trova come:
- con [nα] inteso come parte intera di nα (ad esempio [3.7] = 3).
Quartili
[modifica]I quartili sono dei quantili di ordine caratteristico, corrispondenti ai quarti di popolazione:
- il primo quartile, Q1, corrisponde al quantile di ordine 0.25 (q0.25)
- il secondo quartile, Q2, corrisponde al quantile di ordine 0.5 (q0.5), corrisponde anche alla mediana.
- il terzo quartile, Q3, corrisponde al quantile di ordine 0.75 (q0.75)
Percentili
[modifica]I percentili sono invece solo un modo lievemente diverso di definire i quantili, poiché l'unica differenza è che l'ordine del percentile non si esprime come frazione di uno, bensì come percentuale. Ad esempio q0.32 è uguale a p25.
Bibliografia
[modifica]- Lamberto Soliani. Manuale di statistica per la ricerca e la professione. Parma, 2005.