Il modello OLS

Lezione precedente	Materia	Lezione successiva
Analisi preliminare delle variabili	Econometria	Il modello GLS

lezione Il modello OLS
	Tipo: lezione
	Materia: Econometria
	Avanzamento: lezione completa al 00%

Supponiamo di avere disposizioni dati campionari relativi a due fenomeni: salario mensile, che chiamiamo $Y$ , e anni di istruzione, che chiamiamo $X$ . Potremmo essere interessati a sapere se è vero che "studiare di più serve a guadagnare di più in futuro", e cercare di scoprire anche "quanto". In altri termini, cerchiamo una funzione che associa a ogni quantità di anni impiegati nello studio una previsione il più precisa possibile di quello è lecito aspettarsi di guadagnare in futuro, non sulla base di teorie ma a partire da dati campionari raccolti.

Stipendio guadagnato in relazione agli anni di istruzione

Dal grafico di esempio e dal buon senso è lecito aspettarsi una qualche correlazione positiva tra anni di istruzione e stipendio guadagnato.

Per "previsione il più precisa possibile" in questa sede intendiamo una retta che minimizza gli errori di previsione. Nel caso di funzioni lineari, come quelle a cui facciamo riferimento in questa lezione, il modello OLS è dunque così composto:

y_{i}=\beta _{0}+\beta _{1}x_{i}+u_{i}

dove:

$y_{i}$ è l'i-esimo livello della variabile $Y$ , che è il fenomeno che vogliamo spiegare;
$x_{i}$ è l'i-esimo livello della variabile $X$ , che è il fenomeno che "usiamo" per spiegare $Y$ poiché lo riteniamo ad esso in qualche modo correlato;
i vari $\beta$ che sono parametri costanti oggetto della nostra stima OLS;
$u_{i}$ è l'errore associato, cioè quella parte di $y_{i}$ che è incorrelata con $x_{i}$ e che dunque non so spiegare.

Naturalmente non sappiamo quali siano $\beta _{0}$ e $\beta _{1}$ , e dobbiamo stimarli attraverso dati campionari e opportuni stimatori (che in questa lezione sono appunto gli stimatori OLS). Trovati delle stime di $\beta _{0}$ e $\beta _{1}$ a partire da osservazioni campionarie di $Y$ e $X$ , che chiamiamo ${\hat {\beta _{0}}}$ e ${\hat {\beta }}_{1}$ , abbiamo la stima di $y_{i}$ che chiamiamo ${\hat {y}}_{i}$ e anche una la stima degli errori, cioè i residui ${\hat {u}}_{i}=y_{i}-{\hat {y}}_{i}=y_{i}-{\hat {\beta }}_{0}-{\hat {\beta }}_{1}x_{i}$ che banalmente rappresentano quanto la retta di regressione non è stata capace di spiegare.

Condizioni di applicabilità degli OLS

Gli errori non sono correlati con la variabile esplicativa

Si deve avere che $\mathbb {E} (u_{i}|x_{i})=0$ e conseguentemente che ${\text{Cov}}(u_{i},x_{i})=0$ . In altri termini, per ogni livello della variabile esplicativa $X$ , $x_{i}$ , possono esserci errore più o meno grossi, ma devono comunque compensarsi, cioè avere media nulla. Se ciò non avviene è perché la variabile esplicativa è influenzata a sua volta dalla variabile dipendente che deve spiegare, generando una specie di loop. Se uno shock di $u_{i}$ , incrementando $y_{i}$ , modifica a sua volta $x_{i}$ , allora la prima condizione degli OLS è violata.

Per esempio, supponiamo di voler spiegare la quantità prodotta di arance attraverso il prezzo delle arance sul mercato, prefigurandoci una qualche correlazione positiva tra prezzo $P$ e quantità $Q$ . Il modello di regressione lineare con i minimi quadrati ordinari è

q_{i}=\beta _{0}+\beta _{1}p_{i}+u_{i}

Supponiamo ora un qualsiasi shock su $u_{i}$ , per esempio l'avvento di un parassita che distrugge una rilevante parte del raccolto. Si ha ovviamente che la quantità $q_{i}$ , ma questo ha effetto anche sul prezzo $p_{i}$ (che nell'esempio dovrebbe aumentare, ma ciò è irrilevante nel caso generale). Questo mostra che gli errori sono correlati con la variabile esplicativa.

Quando invece shock sugli errori che si ripercuotono sulla variabile dipendente non generano a loro volta effetti sulla variabile esplicativa, allora l'indipendenza tra la variabile esplicativa e gli errori è assicurata.

Se gli errori sono correlati con la variabile esplicativa ${\hat {\beta }}_{0}$ e ${\hat {\beta }}_{1}$ sono distorti, cioè $\mathbb {E} ({\hat {\beta }}_{i})\neq \beta _{i}$ .

La variabile dipendente e le variabili esplicative indipendenti e identicamente distribuite

Gli elementi estratti di $X$ devono appartenere alla medesima popolazione, cioè una popolazione avente media $\mu _{X}$ e varianza $\sigma _{X}^{2}$ , e la medesima cosa vale per $Y$ . Se le variabili non appartengono alla medesima distribuzione, allora gli OLS potrebbero essere distorti, inefficienti o anche privi di senso. Per esempio i dati della variabile esplicativa potrebbero essere presi da due popolazioni aventi diversa media e varianza, oppure solo diversa varianza (eteroschedasticità).

Inoltre l'estrazione di un elemento della popolazione $x_{i}$ deve essere del tutto casuale e non dipendente dall'estrazione (o dalla non estrazione) di un altro elemento $x_{j}$ , e la medesima cosa vale per $Y$ .

Outlier rari e improbabili

Un outlier è una osservazione anomala, o meglio, sospetta, che potrebbe celare un errore di battitura o comunque una situazione particolare che non merita di essere considerata e di influenzare l'intera analisi. Formalmente la curtosi della distribuzione della variabile deve essere finita e non nulla, dunque:

$0<\mathbb {E} (X^{4})<+\infty$ In realtà spesso gli outlier sono riconoscibili anche graficamente nello scatter plot.

Stimatori OLS

Gli stimatori OLS sono variabili casuali ${\hat {\beta }}_{0}$ e ${\hat {\beta }}_{1}$ tali che la somma degli i residui è minimizzata. Denotando per comodità ${\bar {X}}=\mathbb {E} (X)$ e ${\bar {Y}}=\mathbb {E} (Y)$ , si ha:

{\hat {\beta }}_{1}={\frac {{\text{Cov}}(X,Y)}{{\text{Var}}(X)}}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {X}})(y_{i}-{\bar {Y}})}{\sum _{i=1}^{n}(x-{\bar {X}})^{2}}}

{\hat {\beta }}_{0}={\bar {Y}}-{\hat {\beta }}_{1}{\bar {X}}

Se valgono le condizioni sopra, allora i due stimatori OLS sono i migliori stimatori lineari non distorti (Best Linear Unbiased Estimator). I residui della regressione sono:

{\hat {u}}_{i}=y_{i}-{\hat {y_{i}}}=y_{i}-{\hat {\beta _{0}}}-{\hat {\beta _{1}}}x_{i}

Dimostrazione

da fare. Mostrare che gli stimatori OLS sono il risultato della minimizzazione ottima.

Distribuzione degli OLS

A prescindere dalla forma delle popolazioni, per campioni sufficientemente grandi gli stimatori OLS hanno distribuzione normale con la seguente media e varianza:

$\mathbb {E} ({\hat {\beta }}_{1})=\beta _{1}$ ${\text{Var}}({\hat {\beta }}_{1})={\frac {\sigma _{u}^{2}}{n(\sigma _{X}^{2})^{2}}}$