Il modello OLS

Da Wikiversità, l'apprendimento libero.
Lezione precedente Materia Lezione successiva
Analisi preliminare delle variabili Econometria Il modello GLS
lezione
lezione
Il modello OLS
Tipo di risorsa Tipo: lezione
Materia di appartenenza Materia: Econometria
Avanzamento Avanzamento: lezione completa al 00%

Supponiamo di avere disposizioni dati campionari relativi a due fenomeni: salario mensile, che chiamiamo , e anni di istruzione, che chiamiamo . Potremmo essere interessati a sapere se è vero che "studiare di più serve a guadagnare di più in futuro", e cercare di scoprire anche "quanto". In altri termini, cerchiamo una funzione che associa a ogni quantità di anni impiegati nello studio una previsione il più precisa possibile di quello è lecito aspettarsi di guadagnare in futuro, non sulla base di teorie ma a partire da dati campionari raccolti.

Stipendio guadagnato in relazione agli anni di istruzione

Dal grafico di esempio e dal buon senso è lecito aspettarsi una qualche correlazione positiva tra anni di istruzione e stipendio guadagnato.

Per "previsione il più precisa possibile" in questa sede intendiamo una retta che minimizza gli errori di previsione. Nel caso di funzioni lineari, come quelle a cui facciamo riferimento in questa lezione, il modello OLS è dunque così composto:

dove:

  • è l'i-esimo livello della variabile , che è il fenomeno che vogliamo spiegare;
  • è l'i-esimo livello della variabile , che è il fenomeno che "usiamo" per spiegare poiché lo riteniamo ad esso in qualche modo correlato;
  • i vari che sono parametri costanti oggetto della nostra stima OLS;
  • è l'errore associato, cioè quella parte di che è incorrelata con e che dunque non so spiegare.

Naturalmente non sappiamo quali siano e , e dobbiamo stimarli attraverso dati campionari e opportuni stimatori (che in questa lezione sono appunto gli stimatori OLS). Trovati delle stime di e a partire da osservazioni campionarie di e , che chiamiamo e , abbiamo la stima di che chiamiamo e anche una la stima degli errori, cioè i residui che banalmente rappresentano quanto la retta di regressione non è stata capace di spiegare.

Condizioni di applicabilità degli OLS[modifica]

Gli errori non sono correlati con la variabile esplicativa[modifica]

Si deve avere che e conseguentemente che . In altri termini, per ogni livello della variabile esplicativa , , possono esserci errore più o meno grossi, ma devono comunque compensarsi, cioè avere media nulla. Se ciò non avviene è perché la variabile esplicativa è influenzata a sua volta dalla variabile dipendente che deve spiegare, generando una specie di loop. Se uno shock di , incrementando , modifica a sua volta , allora la prima condizione degli OLS è violata.

Per esempio, supponiamo di voler spiegare la quantità prodotta di arance attraverso il prezzo delle arance sul mercato, prefigurandoci una qualche correlazione positiva tra prezzo e quantità . Il modello di regressione lineare con i minimi quadrati ordinari è

Supponiamo ora un qualsiasi shock su , per esempio l'avvento di un parassita che distrugge una rilevante parte del raccolto. Si ha ovviamente che la quantità , ma questo ha effetto anche sul prezzo (che nell'esempio dovrebbe aumentare, ma ciò è irrilevante nel caso generale). Questo mostra che gli errori sono correlati con la variabile esplicativa.

Quando invece shock sugli errori che si ripercuotono sulla variabile dipendente non generano a loro volta effetti sulla variabile esplicativa, allora l'indipendenza tra la variabile esplicativa e gli errori è assicurata.

Se gli errori sono correlati con la variabile esplicativa e sono distorti, cioè .

La variabile dipendente e le variabili esplicative indipendenti e identicamente distribuite[modifica]

Gli elementi estratti di devono appartenere alla medesima popolazione, cioè una popolazione avente media e varianza , e la medesima cosa vale per . Se le variabili non appartengono alla medesima distribuzione, allora gli OLS potrebbero essere distorti, inefficienti o anche privi di senso. Per esempio i dati della variabile esplicativa potrebbero essere presi da due popolazioni aventi diversa media e varianza, oppure solo diversa varianza (eteroschedasticità).

Inoltre l'estrazione di un elemento della popolazione deve essere del tutto casuale e non dipendente dall'estrazione (o dalla non estrazione) di un altro elemento , e la medesima cosa vale per .

Outlier rari e improbabili[modifica]

Un outlier è una osservazione anomala, o meglio, sospetta, che potrebbe celare un errore di battitura o comunque una situazione particolare che non merita di essere considerata e di influenzare l'intera analisi. Formalmente la curtosi della distribuzione della variabile deve essere finita e non nulla, dunque:

In realtà spesso gli outlier sono riconoscibili anche graficamente nello scatter plot.

Stimatori OLS[modifica]

Gli stimatori OLS sono variabili casuali e tali che la somma degli i residui è minimizzata. Denotando per comodità e , si ha:

Se valgono le condizioni sopra, allora i due stimatori OLS sono i migliori stimatori lineari non distorti (Best Linear Unbiased Estimator). I residui della regressione sono:

Dimostrazione
da fare. Mostrare che gli stimatori OLS sono il risultato della minimizzazione ottima.

Distribuzione degli OLS[modifica]

A prescindere dalla forma delle popolazioni, per campioni sufficientemente grandi gli stimatori OLS hanno distribuzione normale con la seguente media e varianza: