Statistica descrittiva
Da Wikiversità, l'università aperta.
Questo modulo necessita di essere "wikificato", ovvero formattato secondo gli standard di Wikiversità (vedi l'elenco degli articoli da wikificare). Collabora anche tu a rendere questo articolo conforme alle linee guida (vedi anche qui) poi rimuovi questo avviso.
In questa lezione ci occuperemo della descrizione statistica dei dati, cioè analizzeremo le loro caratteristiche e i possibili modi di rappresentarli.
Indice |
[modifica] Dati e scale
La prima fondamentale caratteristica della popolazione sulla quale si vuole svolgere l'analisi è il tipo di dati che si vuole ottenere, e il tipo di scala su cui questi dati possono essere riportati.
[modifica] Tipi di dati
I dati possono essere distinti in due tipi principali:
- Variabili qualitative o categoriali, quando si tratta di conteggi (ad esempio il numero di macroinvertebrati per ogni specie raccolti in un'analisi di un fiume);
- Variabili quantitative, quando si tratta di valori numerici su scala continua (ad esempio diverse misurazioni della portata del sopracitato fiume).
[modifica] Tipi di scale
A seconda delle caratteristiche dei dati, questi possono essere riportati su una o più scale di tipo diverso:
- Scala nominale o classificatoria, è usata per dividere i dati in classi o categorie, la cui unica proprietà è l'equivalenza tra gli elementi di una stessa classe (ad esempio una scala riportanti le varie specie di macroinvertebrati).
- Scala ordinale o per ranghi, quando oltre all'equivalenza degli elementi all'interno di una stessa classe, è possibile stabilire una relazione di maggioranza/minoranza tra due classi (in pratica è possibile decidere quale viene prima e quale dopo), ma non è ancora possibile determinare l'esatta distanza tra le classi (ad esempio, la scala riportante un ciclo di vita, come uova, larve, adulti)
- Scala ad intervalli, quando oltre alle caratteristiche delle scale precedenti è possibile determinare la distanza tra le classi, ma sulla scala non è presente un valore 0 corrispondente a una quantità nulla (cioè è possibile determinare la distanza tra i valori ma non il loro rapporto). Esempi sono scale di temperature misurate in gradi Celsius o Farenheit, o una scala di date.
- Scala di rapporti, quando oltre alle caratteristiche delle scale precedenti è presente anche uno zero assoluto, tale da permettere di calcolare il rapporto tra i valori (scale di questo tipo sono ad esempio la temperatura misurata in gradi Kelvin, o la portata di un fiume).
Da una scala più complessa è sempre possibile scendere a una scala più semplice, seppur con perdita di informazioni (ad esempio da una scala di altezze misurate in centimetri è possibile passare ad una scala del tipo basso, medio, alto), mentre di solito non è possibile il contrario.
[modifica] Classi
La prima operazione che è possibile effettuare sulla serie dei dati raccolta nel campionamento, se questa è riportabile almeno su una scala ordinale, è la seriazione: si tratta banalmente di ordinarla in ordine crescente o decrescente. In questo modo è possibile evidenziare i valori massimo e minimo, e di conseguenza individuare il campo di variazione o intervallo di variazione.
Il passo successivo consiste nel dividere la serie di dati in classi, contenenti elementi con la stessa modalità di espressione: nel solito esempio del campione di macroinvertebrati fluviali, le classi corrispondono alle diverse specie riscontrate, e la modalità di espressione di ogni singolo invertebrato esaminato è la sua specie, una classe comprende quindi invertebrati della stessa specie.
Per ogni classe è possibile determinare:
- la frequenza assoluta, cioè il numero di elementi appartenenti alla classe;
- la frequenza relativa, cioè il rapporto tra gli elementi della classe e il totale degli elementi nella serie dei dati;
- la frequenza cumulata (assoluta o relativa), calcolabile se la scala è ordinabile, che è la somma delle frequenze (assolute o relative) di tutte le classi minori con la frequenza della classe stessa.
La frequenza relativa, che normalmente ha l'andamento di una curva a campana, è utile per confrontare serie con un diverso numero di dati; la frequenza cumulata ha invece di norma un andamento a S che tende a 1, e serve per conoscere la percentuale di dati al di sotto o al di sopra di un certo valore.
[modifica] Medie di posizione
[modifica] Mediana
È rappresentata dal valore più frequente di una distribuzione osservata ed è detta anche valore modale; se la distribuzione è in classi si parla di classe modale. È l'unico indice di tendenza centrale per dati qualitativi misurati su scala nominale. La distribuzione di frequenza si dice unimodale quando la moda è unica, bimodale quando la moda è definita da due valori.
[modifica] Moda
La moda è l'indice di posizione che si riferisce alla modalità con la frequenza assoluta o relativa più alta (per dati grezzi oppure organizzati in tabella), invece quando i dati sono organizzati in classi, non si parla più di moda, ma di classe modale e corrisponde alla densità di frequenza più alta. Questo indice, inoltre, a differenza della media, può essere calcolato anche per variabili qualitative.
[modifica] Medie algebriche
[modifica] Media aritmetica
È data dalla somma delle misure osservate diviso il numero delle osservazioni fatte.
[modifica] Media geometrica
[modifica] Media armonica
[modifica] Bibliografia
- Lamberto Soliani. Manuale di statistica per la ricerca e la professione. Parma, 2005.