Movatterモバイル変換


[0]ホーム

URL:


Vai al contenuto
WikipediaL'enciclopedia libera
Ricerca

Analisi della regressione

Da Wikipedia, l'enciclopedia libera.
Disambiguazione – "Regressione"rimanda qui.Se stai cercando altri significati, vediRegressione (disambigua).

L'analisi della regressione è una tecnica usata per analizzare una serie di dati che consistono in unavariabile dipendente e una o piùvariabili indipendenti. Lo scopo è stimare un'eventuale relazione funzionale esistente tra la variabile dipendente e le variabili indipendenti. La variabile dipendente nell'equazione di regressione è una funzione delle variabili indipendenti più untermine d'errore. Quest'ultimo è unavariabile casuale e rappresenta una variazione non controllabile e imprevedibile nella variabile dipendente. I parametri sono stimati in modo da descrivere al meglio i dati. Il metodo più comunemente utilizzato per ottenere le migliori stime è il metodo dei"minimi quadrati" (OLS), ma sono utilizzati anche altri metodi.

Ildata modeling può essere usato senza alcuna conoscenza dei processi sottostanti che hanno generato i dati;[1] in questo caso il modello è un modello empirico. Nella modellizzazione, inoltre, non è richiesta la conoscenza delladistribuzione di probabilità degli errori. L'analisi della regressione richiede ipotesi riguardanti ladistribuzione di probabilità degli errori. Test statistici vengono effettuati sulla base di tali ipotesi. Nell'analisi della regressione il termine "modello" comprende sia la funzione usata per modellare i dati che le assunzioni concernenti la distribuzione di probabilità.

L'analisi della regressione può essere usata per effettuare previsioni (ad esempio per prevedere dati futuri di una serie temporale),inferenza statistica, per testare ipotesi o per modellare delle relazioni di dipendenza. Questi usi della regressione dipendono fortemente dal fatto che le assunzioni di partenza siano verificate. L'uso dell'analisi della regressione è stato criticato in diversi casi in cui le ipotesi di partenza non possono essere verificate.[1][2] Un fattore che contribuisce all'uso improprio della regressione è che richiede più competenze per criticare un modello che per adattarlo.[3]

Storia

[modifica |modifica wikitesto]

La prima forma di regressione fu ilmetodo dei minimi quadrati, pubblicato daLegendre nel 1805,[4] e daGauss nel 1809.[5] Il termine “minimi quadrati” deriva dall'espressione francese usata da Legendre,moindres carrés. Tuttavia, Gauss affermò di essere a conoscenza di questo metodo fin dal 1795.

Legendre e Gauss applicarono entrambi il metodo al problema di determinare, a partire da osservazioni astronomiche, l'orbita dei pianeti attorno al Sole. GiàEulero aveva lavorato sullo stesso problema, intorno al 1748, ma senza successo.[senza fonte] Gauss pubblicò un ulteriore sviluppo della teoria dei minimi quadrati nel 1821,[6] includendo una versione delteorema di Gauss-Markov.

Il termine "regressione" venne coniato nelXIX secolo per descrivere il fenomeno biologico per il quale la progenie di individui eccezionali tende in genere ad essere meno eccezionale dei propri genitori e più simile ai loro avi più distanti.Francis Galton, un cugino diCharles Darwin, studiò questo fenomeno e usò i termini, vagamente fuorvianti, di "regressione verso il centro" e "regressione verso la media". Per Galton la regressione aveva solo questo significato biologico, ma il suo lavoro[7] venne in seguito esteso daUdny Yule eKarl Pearson in un contesto statistico più generale.[8] Oggi il termine "regressione" viene spesso usato come sinonimo di "curva intercetta dei minimi quadrati".

Presupposti

[modifica |modifica wikitesto]
  • Il campione deve essere rappresentativo della popolazione per la quale si vuole effettuare la previsione.
  • La variabile dipendente è soggetta ad errore. Tale errore si assume sia unavariabile casuale, conmedia zero. L'errore sistematico può essere presente ma il suo trattamento esula dallo scopo dell'analisi della regressione.
  • Le variabili indipendenti non hanno errore. Se così non fosse, la modellizzazione dovrebbe essere fatta usando le tecnicheerrors-in-variables.
  • Le variabili predittive devono esserelinearmente indipendenti, ossia non deve essere possibile esprimere un qualunque predittore come combinazione lineare degli altri. Vedimulticollinearità.
  • Gli errori sonoincorrelati, ossia, lamatrice di varianza e covarianza degli errori è diagonale e ogni elemento non-nullo è la varianza dell'errore.
  • La varianza dell'errore è costante (omoschedasticità). In caso contrario, si deve utilizzare il metodo dei minimi quadrati pesati, o altri metodi.
  • Gli errori seguono unadistribuzione normale. Altrimenti, dovrebbe essere usato ilmodello lineare generalizzato.

Queste condizioni sono sufficienti (ma non tutte necessarie) perché lostimatore dei minimi quadrati goda di buone proprietà. In particolare queste assunzioni implicano che lo stimatore sianon distorto,consistente edefficiente nella classe degli stimatori lineari non distorti. Molte di queste assunzioni possono essere rilassate in analisi più avanzate.

Regressione lineare

[modifica |modifica wikitesto]
Lo stesso argomento in dettaglio:Regressione lineare.

Nella regressione lineare, il modello assume che la variabile dipendente,yi{\displaystyle y_{i}} sia unacombinazione lineare deiparametri (ma non è necessario che sia lineare nellavariabile indipendente). Ad esempio, nella regressione lineare semplice conN{\displaystyle N} osservazioni ci sono una variabile indipendente:xi{\displaystyle x_{i}}, e due parametri,β0{\displaystyle \beta _{0}} eβ1{\displaystyle \beta _{1}}:

yi=β0+β1xi+εi,i=1,,N.{\displaystyle y_{i}=\beta _{0}+\beta _{1}x_{i}+\varepsilon _{i},\quad i=1,\ldots ,N.}

Nella regressione lineare multipla, ci sono più variabili indipendenti o funzioni di variabili indipendenti. Ad esempio, aggiungendo un termine inxi2{\textstyle x_{i}^{2}} alla regressione precedente si ottiene:

yi=β0+β1xi+β2xi2+εi, i=1,,N.{\displaystyle y_{i}=\beta _{0}+\beta _{1}x_{i}+\beta _{2}x_{i}^{2}+\varepsilon _{i},\ i=1,\ldots ,N.}

Si tratta ancora di una regressione lineare: sebbene l'espressione sulla destra sia quadratica nella variabile indipendentexi{\displaystyle x_{i}}, è comunque lineare nei parametriβ0{\displaystyle \beta _{0}},β1{\displaystyle \beta _{1}} eβ2.{\displaystyle \beta _{2}.}

In entrambi i casi,εi{\displaystyle \varepsilon _{i}} è un termine di errore e l'indicei{\displaystyle i} identifica una particolare osservazione. Dato un campione casuale della popolazione, stimiamo i parametri della popolazione e otteniamo il modello di regressione lineare semplice:

yi=β^0+β^1Xi+ei.{\displaystyle y_{i}={\widehat {\beta }}_{0}+{\widehat {\beta }}_{1}X_{i}+e_{i}.}

Il termineei{\displaystyle e_{i}} è il residuo,ei=yiy^i{\displaystyle e_{i}=y_{i}-{\widehat {y}}_{i}}. Un metodo di stima è quello deiminimi quadrati ordinari. Questo metodo ottiene le stime dei parametri che minimizzano la somma dei quadrati deiresidui, SSE:

SSE=i=1Nei2.{\displaystyle SSE=\sum _{i=1}^{N}e_{i}^{2}.}

La minimizzazione di questa funzione risulta essere un sistema diequazioni normali, un insieme di equazioni lineari simultanee nei parametri, che vengono risolte per trovare le stime dei parametri,β^0,β^1{\displaystyle {\widehat {\beta }}_{0},{\widehat {\beta }}_{1}}. Vedicoefficienti di regressione per informazioni sulle proprietà statistiche di tali stimatori.

Illustrazione della regressione lineare su un insieme di dati (punti rossi).

Nel caso della regressione semplice, le formule per le stime dei minimi quadrati sono

β1^=(xix¯)(yiy¯)(xix¯)2{\displaystyle {\widehat {\beta _{1}}}={\frac {\sum (x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum (x_{i}-{\bar {x}})^{2}}}} eβ0^=y¯β1^x¯{\displaystyle {\hat {\beta _{0}}}={\bar {y}}-{\widehat {\beta _{1}}}{\bar {x}}}

dovex¯{\displaystyle {\bar {x}}} è lamedia (media) dei valorix{\displaystyle x} ey¯{\displaystyle {\bar {y}}} è la media dei valoriy{\displaystyle y}.Sotto l'ipotesi che il termine di errore della popolazione abbia una varianza costante, la stima di quella varianza è data da:σε^=SSEN2{\displaystyle {\hat {\sigma _{\varepsilon }}}={\sqrt {\frac {SSE}{N-2}}}}Questo è la radice dell'errore quadratico medio (RMSE) della regressione. Glierrori standard delle stime dei parametri sono dati da

σ^β0=σ^ε1N+x¯2(xix¯)2{\displaystyle {\hat {\sigma }}_{\beta _{0}}={\hat {\sigma }}_{\varepsilon }{\sqrt {{\frac {1}{N}}+{\frac {{\bar {x}}^{2}}{\sum (x_{i}-{\bar {x}})^{2}}}}}}
σ^β1=σ^ε1(xix¯)2.{\displaystyle {\hat {\sigma }}_{\beta _{1}}={\hat {\sigma }}_{\varepsilon }{\sqrt {\frac {1}{\sum (x_{i}-{\bar {x}})^{2}}}}.}

Sotto l'ulteriore ipotesi che il termine di errore della popolazione abbia distribuzione normale, il ricercatore può usare questi errori standard stimati per creare intervalli di confidenza e condurre test d'ipotesi sui parametri della popolazione.

La regressione multipla

[modifica |modifica wikitesto]

Nel più generale modello di regressione multipla, ci sonop{\displaystyle p} variabili indipendenti:

yi=β0+β1x1i++βpxpi+εi.{\displaystyle y_{i}=\beta _{0}+\beta _{1}x_{1i}+\cdots +\beta _{p}x_{pi}+\varepsilon _{i}.}

Le stime dei parametri dei minimi quadrati sono ottenute dap{\displaystyle p} equazioni normali. Il residuo può essere scritto come

ei=yiβ^0β^1x1β^pxp.{\displaystyle e_{i}=y_{i}-{\hat {\beta }}_{0}-{\hat {\beta }}_{1}x_{1}-\cdots -{\hat {\beta }}_{p}x_{p}.}

Leequazioni normali sono

i=1nk=1pXijXikβ^k=i=1nXijyi, j=1,...,p{\displaystyle \sum _{i=1}^{n}\sum _{k=1}^{p}X_{ij}X_{ik}{\hat {\beta }}_{k}=\sum _{i=1}^{n}X_{ij}y_{i},\ j=1,...,p}

In notazione matriciale, le equazioni normali sono scritte come

(XTX)β^=XTy.{\displaystyle \mathbf {\left(X^{T}X\right){\hat {\boldsymbol {\beta }}}=X^{T}y} .}

Analisi di bontà del modello

[modifica |modifica wikitesto]

Una volta costruito un modello di regressione, è importante confermare labontà di adattamento del modello e lasignificatività statistica dei parametri stimati. I controlli della bontà di adattamento comunemente usati includono l'indiceR-quadro, analisi deiresidui etest di ipotesi. La significatività statistica è verificata con untest F dell'adattamento globale, seguito dat-test per ogni singolo parametro.

L'interpretazione di questi test dipende fortemente dalle assunzioni sul modello. Nonostante l'analisi dei residui sia usata per determinare la bontà di un modello, i risultati deitest-T e deitest-F sono difficili da interpretare nel caso in cui le assunzioni di partenza non siano soddisfatte. Ad esempio, se la distribuzione degli errori non è normale, può accadere che in campioni di numerosità ridotta le stime dei parametri non seguano una distribuzione normale, cosa che complica l'inferenza. Per grandi campioni, ilteorema del limite centrale permette di effettuare i test usando un'approssimazione asintotica delle distribuzioni.

Regressione per variabili discrete: i modelli lineari generalizzati

[modifica |modifica wikitesto]

La variabile risposta può essere non continua. Per le variabili binarie (zero/uno), si può procedere con un particolare tipo di modello linearelinear probability model. Se si usa un modello non-lineare i modelli più utilizzati sono ilprobit e ilmodello logit. Il modelloprobit multivariato rende possibile stimare congiuntamente la relazione tra più variabili binarie dipendenti e alcune variabili indipendenti. Pervariabili categoriche con più di due valori si utilizza il modellologit multinomiale. Pervariabili ordinali con più di due valori, si utilizzano i modellilogit cumulativo eprobit cumulativo. Un'alternativa a tali procedure è la regressione lineare basata su polychoric o polyserial correlazioni tra le variabili categoriche. Tali procedure differiscono nelle ipotesi fatte sulla distribuzione delle variabili nella popolazione. Se la variabile rappresenta una ripetizione di un evento nel tempo, è positiva e con poche realizzazioni ("eventi rari"), si possono utilizzare modelli diPoisson obinomiale negativa.

Interpolazione e estrapolazione

[modifica |modifica wikitesto]

I modelli di regressione predicono una variabiley{\displaystyle y} partendo dai valori di altre variabilix{\displaystyle x}. Se i valori della previsione sono compresi nell'intervallo dei valori delle variabilix{\displaystyle x} utilizzate per la costruzione del modello si parla diinterpolazione. Se i valori escono dal range delle variabili esplicative si parla diestrapolazione. In questo caso la previsione diventa più rischiosa.

Regressione non lineare

[modifica |modifica wikitesto]
Lo stesso argomento in dettaglio:Regressione nonlineare.

Quando la funzione del modello non è lineare nei parametri la somma dei quadrati deve essere minimizzata da una procedura iterativa.

Altri metodi

[modifica |modifica wikitesto]

Sebbene i parametri di un modello di regressione siano di solito stimati usando il metodo dei minimi quadrati, altri metodi includono:

Software

[modifica |modifica wikitesto]

Tutti i principalipacchetti statistici eseguono i tipi comuni di analisi di regressione correttamente e in modo semplice. Laregressione lineare semplice può essere fatta in alcunifogli elettronici. C'è una quantità di programmi che esegue forme specializzate di regressione, e gli esperti possono scegliere di scrivere il loro proprio codice per usarelinguaggi di programmazione statistica osoftware per analisi numerica.

Note

[modifica |modifica wikitesto]
  1. 12Richard A. Berk,Regression Analysis: A Constructive Critique, Sage Publications (2004)
  2. David A. Freedman,Statistical Models: Theory and Practice, Cambridge University Press (2005)
  3. R. Dennis Cook; Sanford Weisberg "Criticism and Influence Analysis in Regression",Sociological Methodology, Vol. 13. (1982), pp. 313-361.
  4. A.M. Legendre.Nouvelles méthodes pour la détermination des orbites des comètes (1805). “Sur la Méthode des moindres quarrés” appears as an appendix.
  5. C.F. Gauss.Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum. (1809)
  6. C.F. Gauss.Theoria combinationis observationum erroribus minimis obnoxiae. (1821/1823)
  7. Francis Galton. "Typical laws of heredity", Nature 15 (1877), 492-495, 512-514, 532-533.(Galton usa il termine "reversion" in questo articolo, che tratta della grandezza dei piselli.); Francis Galton. Presidential address, Section H, Anthropology. (1885)(in questo documento,che tratta dell'altezza degli esseri umani, Galton utilizza il termine "regressione".)
  8. G. Udny Yule. "On the Theory of Correlation", J. Royal Statist. Soc., 1897, p. 812-54.Karl Pearson, G. U. Yule, Norman Blanchard, e Alice Lee. "The Law of Ancestral Heredity",Biometrika (1903). Nel lavoro di Yule e Pearson, la distribuzione congiunta della variabile risposta e delle variabili esplicative è ipotizzata essere unadistribuzione normale. Questa ipotesi fu notevolmente indebolita daR.A. Fisher nei suoi lavori del 1922 e del 1925 (R.A. Fisher, "The goodness of fit of regression formulae, and the distribution of regression coefficients", J. Royal Statist. Soc., 85, 597-612 del 1922 eStatistical Methods for Research Workers del 1925). Fisher ipotizzava che la distribuzione condizionata della variabile risposta fosse normale, ma non poneva condizioni sulla distribuzione congiunta. Sotto questo aspetto, l'ipotesi di Fisher è più vicina alla formulazione di Gauss del 1821.

Bibliografia

[modifica |modifica wikitesto]
  • Audi, R., Ed. (1996). "curve fitting problem,"The Cambridge Dictionary of Philosophy. Cambridge, Cambridge University Press. pp. 172–173.
  • William H. Kruskal e Judith M. Tanur, ed. (1978), "Linear Hypotheses,"International Encyclopedia of Statistics. Free Press, v. 1,
Evan J. Williams, "I. Regression," pp. 523-41.
Julian C. Stanley, "II. Analysis of Variance," pp. 541-554.
  • Lindley, D.V. (1987). "Regression and correlation analysis,"New Palgrave: A Dictionary of Economics, v. 4, pp. 120–23.
  • Birkes, David e Yadolah Dodge,Alternative Methods of Regression.ISBN 0-471-56881-3
  • Chatfield, C. (1993) "Calculating Interval Forecasts,"Journal of Business and Economic Statistics,11. pp. 121–135.
  • Draper, N.R. e Smith, H. (1998).Applied Regression Analysis Wiley Series in Probability and Statistics
  • Fox, J. (1997).Applied Regression Analysis, Linear Models and Related Methods. Sage
  • Hardle, W.,Applied Nonparametric Regression (1990),ISBN 0-521-42950-1
  • Meade, N. e T. Islam (1995) "Prediction Intervals for Growth Curve Forecasts,"Journal of Forecasting,14, pp. 413–430.
  • Munro, Barbara Hazard (2005) "Statistical Methods for Health Care Research" Lippincott Williams & Wilkins, 5th ed.
  • Gujarati, Basic Econometrics, 4ª edizione
  • Sykes, A.O."An Introduction to Regression Analysis" (Inaugural Coase Lecture)
  • S. Kotsiantis, D. Kanellopoulos, P. Pintelas, Local Additive Regression of Decision Stumps, Lecture Notes in Artificial Intelligence, Springer-Verlag, Vol. 3955, SETN 2006, pp. 148 – 157, 2006
  • S. Kotsiantis, P. Pintelas, Selective Averaging of Regression Models, Annals of Mathematics, Computing & TeleInformatics, Vol 1, No 3, 2005, pp. 66–75

Voci correlate

[modifica |modifica wikitesto]

Altri progetti

[modifica |modifica wikitesto]

Altri progetti

Collegamenti esterni

[modifica |modifica wikitesto]
V · D · M
Statistica
Teoria statistica
Statistica descrittivaMedia (aritmetica ·geometrica ·armonica ·di potenza ·aritmetico-geometrica ·integrale) ·Mediana ·Moda ·Intervallo di variazione ·Varianza ·Deviazione standard ·Scarto medio assoluto ·Simmetria ·Differenza media (assoluta ·logaritmica) ·Curtosi
Inferenza statisticaTest di verifica d'ipotesi ·Significatività ·Ipotesi nulla/alternativa ·Errore del I edel II tipo ·Test Q ·Test U ·Test t ·Test Z ·Massima verosimiglianza ·Standardizzazione ·Valore p ·Analisi della varianza
Analisi di sopravvivenzaTasso di guasto ·Stimatore di Kaplan-Meier ·Test dei ranghi logaritmici
Analisi della regressioneRegressione lineare ·Regressione nonlineare ·Variabili strumentali ·Metodo generalizzato dei momenti ·Regressione logistica ·Modello probit ·Modello logit
Statistica economica
Istituti statisticiISTAT ·EuroSTAT ·Royal Statistical Society ·U.S. Census Bureau ·ISI ·INSEE
Siti web statisticiOur World in Data ·Statista ·Bloomberg Terminal ·Google Public Data Explorer ·World Inequality Database ·TradingEconomics ·ACLED
Softwareeconometricigretl ·EViews
V · D · M
Apprendimento automatico
ProblemiTeoria dell'apprendimento statistico ·Classificazione ·Regressione ·Classificazione a singola classe ·Ranking ·Regole di associazione ·Apprendimento non supervisionato ·Apprendimento semi-supervisionato ·Apprendimento supervisionato ·Apprendimento auto-supervisionato ·Apprendimento per rinforzo ·Apprendimento profondo ·Apprendimento online ·Apprendimento incrementale ·Apprendimento trasduttivo

Apprendimento non supervisionatoClustering ·Clustering gerarchico ·K-means ·Algoritmo EM ·DBSCAN ·Mean shift ·Rete generativa avversaria (cGAN · VAE-GAN · cycleGAN)
Apprendimento supervisionatoAlbero di decisione ·Foresta casuale ·Conditional random field CRF ·Modello di Markov nascosto ·Algoritmo k-nearest neighbors (k-NN) ·Ragionamento basato su casi (CBR) ·Classificatore bayesiano ·Rete neurale artificiale ·Regressione lineare ·Regressione logistica ·Modello grafico ·Rete bayesiana ·Macchine a vettori di supporto (SVM) ·Processo gaussiano ·Modello ensemble ·Boosting ·Bagging ·Stacking ·Voting ·Cascading ·Error correcting output code (ECOC)
Apprendimento per rinforzoQ-learning ·SARSA ·TD
Riduzione della dimensionalitàAnalisi fattoriale ·Analisi della correlazione canonica (CCA) ·Analisi delle componenti indipendenti (ICA) ·Analisi discriminante lineare (LDA) ·Analisi delle componenti principali (PCA) ·Selezione delle caratteristiche ·Estrazione di caratteristiche ·t-distributed stochastic neighbor embedding (t-SNE)
Reti neurali artificialiPercettrone ·Percettrone basato su kernel ·Rete neurale a funzioni base radiali (RBF net) ·Rete neurale feed-forward ·Rete di Hopfield ·Percettrone multistrato ·Rete neurale ricorrente (LSTM) ·Macchina di Boltzmann ristretta ·Mappa auto-organizzata ·Rete neurale convoluzionale ·Rete neurale a ritardo ·Rete neurale spiking ·Rete neurale grafica ·Trasformatore
SoftwareKeras ·Microsoft Cognitive Toolkit ·Scikit-learn ·TensorFlow ·Theano ·PyTorch ·Weka
AltroAlgoritmo genetico ·Particle Swarm Optimization ·Caratteristica ·Compromesso bias-varianza ·Minimizzazione del rischio empirico
Controllo di autoritàLCCN(EN) sh85112392 ·GND(DE) 4129903-6 ·BNF(FR) cb119445648(data) ·J9U(EN, HE) 987007529518905171 ·NDL(EN, JA) 00564579
Estratto da "https://it.wikipedia.org/w/index.php?title=Analisi_della_regressione&oldid=146253558"
Categorie:
Categorie nascoste:

[8]ページ先頭

©2009-2026 Movatter.jp