Primjer linearne regresije s jednom nezavisnom varijablom
U statistici,linearna regresija se odnosi na svaki pristup modeliranju relacija između jedne ili više varijabli označene sY, te jedne ili više varijabli označene saX, na način da takav model linearno ovisi o nepoznatim parametrimaestimiranih izpodataka. Najčešće se linearna regresija odnosi na model u kojem jeuvjetna srednja vrijednost odY, uz danu vrijednostX,afina funkcija odX.
Linerana regresija je bila prvi tipregresijske analize koja je detaljno proučavana i koja se ekstenzivno koristila u praktičnim primjenama. Razlog za ovo je taj što se modeli koji linerano ovise o svojim nepoznatim parametrima lakše modeliraju nego modeli s nelinearnom ovisnošću o parametrima. Također, statistička svojstva rezultirajućih estimatora se lakše određuju.
Linearna regresija ima mnogo praktičnih primjena. Većina aplikacija linearne regresije pada u jednu od sljedeće dvije široke kategorije:
Ako je ciljpredviđanje iliprognoza, linearna regresija se može koristiti za podešavanje preditivnog modela prema promatranom skupu podataka vrijednostiY iX. Nakon razvoja ovakvog modela, ako je data vrijednost zaX bez pripadajuće vrijednostiY, podešeni model se može koristiti za predviđanje vrijednostiY.
Ako imamo varijabluY i veći broj varijabliX1, ...,Xp koje mogu biti povezane sY, možemo koristiti lineranu regresijsku analizu za kvantificiranje jačine relacije izmeđuY and theXj, za procjenu koji jeXj uopće vezan zaY, te da bi identificirali koji podskupovi odXj sadrže redundantne informacije oY, tako da, kad je jedan od njih poznat, ostali više ne daju korisne informacije.
Linearni regresijski modeli se često podešavaju uz pomoćmetode najmanjih kvadrata, iako se mogu koristit i drugi načini, kao što je minimiziranje "nedostatka podešenja" (eng.lack of fit) u nekim drugimnormama, ili minimiziranjem penalizirane verzijefunkcije gubitaka najmanjih kvadrata, kao kodTikhonove regularizacije.
Nasuprot tome, pristup metodom najmanjih kvadrata se može iskoristiti za podešavanje neliearnih modela. Prema tome, pojmovi "najmanjih kvadrata" i "linearni model" jesu usko povezani, ali nisu sinonimi.
Uz zadani skuppodataka odnstatističkih jedinica, model linearne regresije pretpostavlja da se relacija između zavisne varijable ip-vektora regresora može aproksimativno uzeti kaolinearna. "Aproksimativno" se ovdje odnosi na "smetnje"εi— nepromatranu slučajnuvarijablu koja dodaješum u linearnu relaciju između zavisne varijable i regresora. Stoga, model ima oblik
Često su ovihn jednadžni složene u vektorski oblik kao
gdje je
Neke napomene vezane uz terminologiju:
se nazivaregresand,zavisna varijabla,endogena varijabla,variabla odgovora ilimjerena varijabla. Odluka o tome koja se varijabla u skupu podataka modelira kao zavisna varijabla, a koja kao nezavisna može se temeljiti na pretpostavci da je jedna od varijabli posljedica ili pod utjecajem druge varijable.
Cohen, J., Cohen P., West, S.G., & Aiken, L.S. (2003).Applied multiple regression/correlation analysis for the behavioral sciences. (2nd ed.) Hillsdale, NJ: Lawrence Erlbaum Associates
Charles Darwin.The Variation of Animals and Plants under Domestication. (1869)(Chapter XIII describes what was known about reversion in Galton's time. Darwin uses the term "reversion".)
Draper, N.R. and Smith, H.Applied Regression Analysis Wiley Series in Probability and Statistics (1998)
Francis Galton. "Regression Towards Mediocrity in Hereditary Stature,"Journal of the Anthropological Institute, 15:246-263 (1886).(Facsimile at:)
Robert S. Pindyck and Daniel L. Rubinfeld (1998, 4h ed.).Econometric Models and Economic Forecasts,, ch. 1 (Intro, incl. appendices on Σ operators & derivation of parameter est.) & Appendix 4.3 (mult. regression in matrix form).