L'analisi della regressione è una tecnica usata per analizzare una serie di dati che consistono in unavariabile dipendente e una o piùvariabili indipendenti. Lo scopo è stimare un'eventuale relazione funzionale esistente tra la variabile dipendente e le variabili indipendenti. La variabile dipendente nell'equazione di regressione è una funzione delle variabili indipendenti più untermine d'errore. Quest'ultimo è unavariabile casuale e rappresenta una variazione non controllabile e imprevedibile nella variabile dipendente. I parametri sono stimati in modo da descrivere al meglio i dati. Il metodo più comunemente utilizzato per ottenere le migliori stime è il metodo dei"minimi quadrati" (OLS), ma sono utilizzati anche altri metodi.
Ildata modeling può essere usato senza alcuna conoscenza dei processi sottostanti che hanno generato i dati;[1] in questo caso il modello è un modello empirico. Nella modellizzazione, inoltre, non è richiesta la conoscenza delladistribuzione di probabilità degli errori. L'analisi della regressione richiede ipotesi riguardanti ladistribuzione di probabilità degli errori. Test statistici vengono effettuati sulla base di tali ipotesi. Nell'analisi della regressione il termine "modello" comprende sia la funzione usata per modellare i dati che le assunzioni concernenti la distribuzione di probabilità.
L'analisi della regressione può essere usata per effettuare previsioni (ad esempio per prevedere dati futuri di una serie temporale),inferenza statistica, per testare ipotesi o per modellare delle relazioni di dipendenza. Questi usi della regressione dipendono fortemente dal fatto che le assunzioni di partenza siano verificate. L'uso dell'analisi della regressione è stato criticato in diversi casi in cui le ipotesi di partenza non possono essere verificate.[1][2] Un fattore che contribuisce all'uso improprio della regressione è che richiede più competenze per criticare un modello che per adattarlo.[3]
La prima forma di regressione fu ilmetodo dei minimi quadrati, pubblicato daLegendre nel 1805,[4] e daGauss nel 1809.[5] Il termine “minimi quadrati” deriva dall'espressione francese usata da Legendre,moindres carrés. Tuttavia, Gauss affermò di essere a conoscenza di questo metodo fin dal 1795.
Legendre e Gauss applicarono entrambi il metodo al problema di determinare, a partire da osservazioni astronomiche, l'orbita dei pianeti attorno al Sole. GiàEulero aveva lavorato sullo stesso problema, intorno al 1748, ma senza successo.[senzafonte] Gauss pubblicò un ulteriore sviluppo della teoria dei minimi quadrati nel 1821,[6] includendo una versione delteorema di Gauss-Markov.
Il termine "regressione" venne coniato nelXIX secolo per descrivere il fenomeno biologico per il quale la progenie di individui eccezionali tende in genere ad essere meno eccezionale dei propri genitori e più simile ai loro avi più distanti.Francis Galton, un cugino diCharles Darwin, studiò questo fenomeno e usò i termini, vagamente fuorvianti, di "regressione verso il centro" e "regressione verso la media". Per Galton la regressione aveva solo questo significato biologico, ma il suo lavoro[7] venne in seguito esteso daUdny Yule eKarl Pearson in un contesto statistico più generale.[8] Oggi il termine "regressione" viene spesso usato come sinonimo di "curva intercetta dei minimi quadrati".
Il campione deve essere rappresentativo della popolazione per la quale si vuole effettuare la previsione.
La variabile dipendente è soggetta ad errore. Tale errore si assume sia unavariabile casuale, conmedia zero. L'errore sistematico può essere presente ma il suo trattamento esula dallo scopo dell'analisi della regressione.
Le variabili indipendenti non hanno errore. Se così non fosse, la modellizzazione dovrebbe essere fatta usando le tecnicheerrors-in-variables.
Le variabili predittive devono esserelinearmente indipendenti, ossia non deve essere possibile esprimere un qualunque predittore come combinazione lineare degli altri. Vedimulticollinearità.
Queste condizioni sono sufficienti (ma non tutte necessarie) perché lostimatore dei minimi quadrati goda di buone proprietà. In particolare queste assunzioni implicano che lo stimatore sianon distorto,consistente edefficiente nella classe degli stimatori lineari non distorti. Molte di queste assunzioni possono essere rilassate in analisi più avanzate.
Nella regressione lineare, il modello assume che la variabile dipendente, sia unacombinazione lineare deiparametri (ma non è necessario che sia lineare nellavariabile indipendente). Ad esempio, nella regressione lineare semplice con osservazioni ci sono una variabile indipendente:, e due parametri, e:
Nella regressione lineare multipla, ci sono più variabili indipendenti o funzioni di variabili indipendenti. Ad esempio, aggiungendo un termine in alla regressione precedente si ottiene:
Si tratta ancora di una regressione lineare: sebbene l'espressione sulla destra sia quadratica nella variabile indipendente, è comunque lineare nei parametri, e
In entrambi i casi, è un termine di errore e l'indice identifica una particolare osservazione. Dato un campione casuale della popolazione, stimiamo i parametri della popolazione e otteniamo il modello di regressione lineare semplice:
Il termine è il residuo,. Un metodo di stima è quello deiminimi quadrati ordinari. Questo metodo ottiene le stime dei parametri che minimizzano la somma dei quadrati deiresidui, SSE:
La minimizzazione di questa funzione risulta essere un sistema diequazioni normali, un insieme di equazioni lineari simultanee nei parametri, che vengono risolte per trovare le stime dei parametri,. Vedicoefficienti di regressione per informazioni sulle proprietà statistiche di tali stimatori.
Illustrazione della regressione lineare su un insieme di dati (punti rossi).
Nel caso della regressione semplice, le formule per le stime dei minimi quadrati sono
e
dove è lamedia (media) dei valori e è la media dei valori.Sotto l'ipotesi che il termine di errore della popolazione abbia una varianza costante, la stima di quella varianza è data da:Questo è la radice dell'errore quadratico medio (RMSE) della regressione. Glierrori standard delle stime dei parametri sono dati da
Sotto l'ulteriore ipotesi che il termine di errore della popolazione abbia distribuzione normale, il ricercatore può usare questi errori standard stimati per creare intervalli di confidenza e condurre test d'ipotesi sui parametri della popolazione.
Una volta costruito un modello di regressione, è importante confermare labontà di adattamento del modello e lasignificatività statistica dei parametri stimati. I controlli della bontà di adattamento comunemente usati includono l'indiceR-quadro, analisi deiresidui etest di ipotesi. La significatività statistica è verificata con untest F dell'adattamento globale, seguito dat-test per ogni singolo parametro.
L'interpretazione di questi test dipende fortemente dalle assunzioni sul modello. Nonostante l'analisi dei residui sia usata per determinare la bontà di un modello, i risultati deitest-T e deitest-F sono difficili da interpretare nel caso in cui le assunzioni di partenza non siano soddisfatte. Ad esempio, se la distribuzione degli errori non è normale, può accadere che in campioni di numerosità ridotta le stime dei parametri non seguano una distribuzione normale, cosa che complica l'inferenza. Per grandi campioni, ilteorema del limite centrale permette di effettuare i test usando un'approssimazione asintotica delle distribuzioni.
Regressione per variabili discrete: i modelli lineari generalizzati
La variabile risposta può essere non continua. Per le variabili binarie (zero/uno), si può procedere con un particolare tipo di modello linearelinear probability model. Se si usa un modello non-lineare i modelli più utilizzati sono ilprobit e ilmodello logit. Il modelloprobit multivariato rende possibile stimare congiuntamente la relazione tra più variabili binarie dipendenti e alcune variabili indipendenti. Pervariabili categoriche con più di due valori si utilizza il modellologit multinomiale. Pervariabili ordinali con più di due valori, si utilizzano i modellilogit cumulativo eprobit cumulativo. Un'alternativa a tali procedure è la regressione lineare basata su polychoric o polyserial correlazioni tra le variabili categoriche. Tali procedure differiscono nelle ipotesi fatte sulla distribuzione delle variabili nella popolazione. Se la variabile rappresenta una ripetizione di un evento nel tempo, è positiva e con poche realizzazioni ("eventi rari"), si possono utilizzare modelli diPoisson obinomiale negativa.
I modelli di regressione predicono una variabile partendo dai valori di altre variabili. Se i valori della previsione sono compresi nell'intervallo dei valori delle variabili utilizzate per la costruzione del modello si parla diinterpolazione. Se i valori escono dal range delle variabili esplicative si parla diestrapolazione. In questo caso la previsione diventa più rischiosa.
regressione non parametrica, tale approccio richiede un ampio numero di osservazioni, poiché i dati sono usati sia per costruire la struttura del modello che per stimare i parametri del modello. Normalmente richiedono un elevato sforzo computazionale.
↑Francis Galton. "Typical laws of heredity", Nature 15 (1877), 492-495, 512-514, 532-533.(Galton usa il termine "reversion" in questo articolo, che tratta della grandezza dei piselli.); Francis Galton. Presidential address, Section H, Anthropology. (1885)(in questo documento,che tratta dell'altezza degli esseri umani, Galton utilizza il termine "regressione".)
↑G. Udny Yule. "On the Theory of Correlation", J. Royal Statist. Soc., 1897, p. 812-54.Karl Pearson, G. U. Yule, Norman Blanchard, e Alice Lee. "The Law of Ancestral Heredity",Biometrika (1903). Nel lavoro di Yule e Pearson, la distribuzione congiunta della variabile risposta e delle variabili esplicative è ipotizzata essere unadistribuzione normale. Questa ipotesi fu notevolmente indebolita daR.A. Fisher nei suoi lavori del 1922 e del 1925 (R.A. Fisher, "The goodness of fit of regression formulae, and the distribution of regression coefficients", J. Royal Statist. Soc., 85, 597-612 del 1922 eStatistical Methods for Research Workers del 1925). Fisher ipotizzava che la distribuzione condizionata della variabile risposta fosse normale, ma non poneva condizioni sulla distribuzione congiunta. Sotto questo aspetto, l'ipotesi di Fisher è più vicina alla formulazione di Gauss del 1821.
S. Kotsiantis, D. Kanellopoulos, P. Pintelas, Local Additive Regression of Decision Stumps, Lecture Notes in Artificial Intelligence, Springer-Verlag, Vol. 3955, SETN 2006, pp.148 – 157, 2006
S. Kotsiantis, P. Pintelas, Selective Averaging of Regression Models, Annals of Mathematics, Computing & TeleInformatics, Vol 1, No 3, 2005, pp.66–75