Il modello OLS

Da Wikiversità, l'apprendimento libero.
Jump to navigation Jump to search
Lezione precedente Materia Lezione successiva
Analisi preliminare delle variabili Econometria Il modello GLS
lezione
Il modello OLS
Tipo di risorsa Tipo: lezione
Materia di appartenenza Materia: Econometria
Avanzamento Avanzamento: lezione completa al 00%.

Supponiamo di avere disposizioni dati campionari relativi a due fenomeni: salario mensile, che chiamiamo , e anni di istruzione, che chiamiamo . Potremmo essere interessati a sapere se è vero che "studiare di più serve a guadagnare di più in futuro", e cercare di scoprire anche "quanto". In altri termini, cerchiamo una funzione che associa a ogni quantità di anni impiegati nello studio una previsione il più precisa possibile di quello è lecito aspettarsi di guadagnare in futuro, non sulla base di teorie ma a partire da dati campionari raccolti.

Stipendio guadagnato in relazione agli anni di istruzione

Dal grafico di esempio e dal buon senso è lecito aspettarsi una qualche correlazione positiva tra anni di istruzione e stipendio guadagnato.

Per "previsione il più precisa possibile" in questa sede intendiamo una retta che minimizza gli errori di previsione. Nel caso di funzioni lineari, come quelle a cui facciamo riferimento in questa lezione, il modello OLS è dunque così composto:

dove:

  • è l'i-esimo livello della variabile , che è il fenomeno che vogliamo spiegare;
  • è l'i-esimo livello della variabile , che è il fenomeno che "usiamo" per spiegare poiché lo riteniamo ad esso in qualche modo correlato;
  • i vari che sono parametri costanti oggetto della nostra stima OLS;
  • è l'errore associato, cioè quella parte di che è incorrelata con e che dunque non so spiegare.

Naturalmente non sappiamo quali siano e , e dobbiamo stimarli attraverso dati campionari e opportuni stimatori (che in questa lezione sono appunto gli stimatori OLS). Trovati delle stime di e a partire da osservazioni campionarie di e , che chiamiamo e , abbiamo la stima di che chiamiamo e anche una la stima degli errori, cioè i residui che banalmente rappresentano quanto la retta di regressione non è stata capace di spiegare.

Condizioni di applicabilità degli OLS[modifica]

Gli errori non sono correlati con la variabile esplicativa[modifica]

Si deve avere che e conseguentemente che . In altri termini, per ogni livello della variabile esplicativa , , possono esserci errore più o meno grossi, ma devono comunque compensarsi, cioè avere media nulla. Se ciò non avviene è perché la variabile esplicativa è influenzata a sua volta dalla variabile dipendente che deve spiegare, generando una specie di loop. Se uno shock di , incrementando , modifica a sua volta , allora la prima condizione degli OLS è violata.

Per esempio, supponiamo di voler spiegare la quantità prodotta di arance attraverso il prezzo delle arance sul mercato, prefigurandoci una qualche correlazione positiva tra prezzo e quantità . Il modello di regressione lineare con i minimi quadrati ordinari è

Supponiamo ora un qualsiasi shock su , per esempio l'avvento di un parassita che distrugge una rilevante parte del raccolto. Si ha ovviamente che la quantità , ma questo ha effetto anche sul prezzo (che nell'esempio dovrebbe aumentare, ma ciò è irrilevante nel caso generale). Questo mostra che gli errori sono correlati con la variabile esplicativa.

Quando invece shock sugli errori che si ripercuotono sulla variabile dipendente non generano a loro volta effetti sulla variabile esplicativa, allora l'indipendenza tra la variabile esplicativa e gli errori è assicurata.

Se gli errori sono correlati con la variabile esplicativa e sono distorti, cioè .

La variabile dipendente e le variabili esplicative indipendenti e identicamente distribuite[modifica]

Gli elementi estratti di devono appartenere alla medesima popolazione, cioè una popolazione avente media e varianza , e la medesima cosa vale per . Se le variabili non appartengono alla medesima distribuzione, allora gli OLS potrebbero essere distorti, inefficienti o anche privi di senso. Per esempio i dati della variabile esplicativa potrebbero essere presi da due popolazioni aventi diversa media e varianza, oppure solo diversa varianza (eteroschedasticità).

Inoltre l'estrazione di un elemento della popolazione deve essere del tutto casuale e non dipendente dall'estrazione (o dalla non estrazione) di un altro elemento , e la medesima cosa vale per .

Outlier rari e improbabili[modifica]

Un outlier è una osservazione anomala, o meglio, sospetta, che potrebbe celare un errore di battitura o comunque una situazione particolare che non merita di essere considerata e di influenzare l'intera analisi. Formalmente la curtosi della distribuzione della variabile deve essere finita e non nulla, dunque:

In realtà spesso gli outlier sono riconoscibili anche graficamente nello scatter plot.

Stimatori OLS[modifica]

Gli stimatori OLS sono variabili casuali e tali che la somma degli i residui è minimizzata. Denotando per comodità e , si ha:

Se valgono le condizioni sopra, allora i due stimatori OLS sono i migliori stimatori lineari non distorti (Best Linear Unbiased Estimator). I residui della regressione sono:

Dimostrazione
da fare. Mostrare che gli stimatori OLS sono il risultato della minimizzazione ottima.

Distribuzione degli OLS[modifica]

A prescindere dalla forma delle popolazioni, per campioni sufficientemente grandi gli stimatori OLS hanno distribuzione normale con la seguente media e varianza: