Statistica descrittiva

Da Wikiversità, l'università aperta.

Design conlang.png

Questo modulo necessita di essere "wikificato", ovvero formattato secondo gli standard di Wikiversità (vedi l'elenco degli articoli da wikificare). Collabora anche tu a rendere questo articolo conforme alle linee guida (vedi anche qui) poi rimuovi questo avviso.

Nota: Ingegneria

In questa lezione ci occuperemo della descrizione statistica dei dati, cioè analizzeremo le loro caratteristiche e i possibili modi di rappresentarli.

Indice

[modifica] Dati e scale

La prima fondamentale caratteristica della popolazione sulla quale si vuole svolgere l'analisi è il tipo di dati che si vuole ottenere, e il tipo di scala su cui questi dati possono essere riportati.

[modifica] Tipi di dati

I dati possono essere distinti in due tipi principali:

  • Variabili qualitative o categoriali, quando si tratta di conteggi (ad esempio il numero di macroinvertebrati per ogni specie raccolti in un'analisi di un fiume);
  • Variabili quantitative, quando si tratta di valori numerici su scala continua (ad esempio diverse misurazioni della portata del sopracitato fiume).

[modifica] Tipi di scale

A seconda delle caratteristiche dei dati, questi possono essere riportati su una o più scale di tipo diverso:

  1. Scala nominale o classificatoria, è usata per dividere i dati in classi o categorie, la cui unica proprietà è l'equivalenza tra gli elementi di una stessa classe (ad esempio una scala riportanti le varie specie di macroinvertebrati).
  2. Scala ordinale o per ranghi, quando oltre all'equivalenza degli elementi all'interno di una stessa classe, è possibile stabilire una relazione di maggioranza/minoranza tra due classi (in pratica è possibile decidere quale viene prima e quale dopo), ma non è ancora possibile determinare l'esatta distanza tra le classi (ad esempio, la scala riportante un ciclo di vita, come uova, larve, adulti)
  3. Scala ad intervalli, quando oltre alle caratteristiche delle scale precedenti è possibile determinare la distanza tra le classi, ma sulla scala non è presente un valore 0 corrispondente a una quantità nulla (cioè è possibile determinare la distanza tra i valori ma non il loro rapporto). Esempi sono scale di temperature misurate in gradi Celsius o Farenheit, o una scala di date.
  4. Scala di rapporti, quando oltre alle caratteristiche delle scale precedenti è presente anche uno zero assoluto, tale da permettere di calcolare il rapporto tra i valori (scale di questo tipo sono ad esempio la temperatura misurata in gradi Kelvin, o la portata di un fiume).

Da una scala più complessa è sempre possibile scendere a una scala più semplice, seppur con perdita di informazioni (ad esempio da una scala di altezze misurate in centimetri è possibile passare ad una scala del tipo basso, medio, alto), mentre di solito non è possibile il contrario.


[modifica] Classi

La prima operazione che è possibile effettuare sulla serie dei dati raccolta nel campionamento, se questa è riportabile almeno su una scala ordinale, è la seriazione: si tratta banalmente di ordinarla in ordine crescente o decrescente. In questo modo è possibile evidenziare i valori massimo e minimo, e di conseguenza individuare il campo di variazione o intervallo di variazione.

Il passo successivo consiste nel dividere la serie di dati in classi, contenenti elementi con la stessa modalità di espressione: nel solito esempio del campione di macroinvertebrati fluviali, le classi corrispondono alle diverse specie riscontrate, e la modalità di espressione di ogni singolo invertebrato esaminato è la sua specie, una classe comprende quindi invertebrati della stessa specie.

Per ogni classe è possibile determinare:

  • la frequenza assoluta, cioè il numero di elementi appartenenti alla classe;
  • la frequenza relativa, cioè il rapporto tra gli elementi della classe e il totale degli elementi nella serie dei dati;
  • la frequenza cumulata (assoluta o relativa), calcolabile se la scala è ordinabile, che è la somma delle frequenze (assolute o relative) di tutte le classi minori con la frequenza della classe stessa.

La frequenza relativa, che normalmente ha l'andamento di una curva a campana, è utile per confrontare serie con un diverso numero di dati; la frequenza cumulata ha invece di norma un andamento a S che tende a 1, e serve per conoscere la percentuale di dati al di sotto o al di sopra di un certo valore.

[modifica] Medie di posizione

[modifica] Mediana

È rappresentata dal valore più frequente di una distribuzione osservata ed è detta anche valore modale; se la distribuzione è in classi si parla di classe modale. È l'unico indice di tendenza centrale per dati qualitativi misurati su scala nominale. La distribuzione di frequenza si dice unimodale quando la moda è unica, bimodale quando la moda è definita da due valori.

[modifica] Moda

La moda è l'indice di posizione che si riferisce alla modalità con la frequenza assoluta o relativa più alta (per dati grezzi oppure organizzati in tabella), invece quando i dati sono organizzati in classi, non si parla più di moda, ma di classe modale e corrisponde alla densità di frequenza più alta. Questo indice, inoltre, a differenza della media, può essere calcolato anche per variabili qualitative.

[modifica] Medie algebriche

[modifica] Media aritmetica

È data dalla somma delle misure osservate diviso il numero delle osservazioni fatte.

[modifica] Media geometrica

[modifica] Media armonica

[modifica] Bibliografia

Strumenti personali