Метод найменших квадратів
Частина з циклу Статистика |
Регресійний аналіз |
---|
Моделі |
|
|
|
|
|
Оцінка |
|
|
Підґрунтя |
|
Метод найменших квадратів — метод знаходження наближеного розв'язку надлишково-визначеної системи. Часто застосовується в регресійному аналізі. На практиці найчастіше використовується лінійний метод найменших квадратів, що використовується у випадку системи лінійних рівнянь. Зокрема важливим застосуванням у цьому випадку є оцінка параметрів у лінійній регресії, що широко застосовується у математичній статистиці і економетриці.
Зміст
1 Мотиваційний приклад
1.1 Використання квадратичної моделі
2 Лінійний випадок
2.1 Одна незалежна змінна
2.2 Множинна регресія (випадок багатьох незалежних змінних)
2.3 Виведення формули
2.4 Числові методи для обчислення розв'язку
2.5 Статистичні властивості
3 В математичному моделюванні
4 Див. також
5 Джерела
Мотиваційний приклад |
В результаті досліду, отримали чотири (x,y)displaystyle (x,y) точки даних: (1,6),displaystyle (1,6), (2,5),displaystyle (2,5), (3,7)displaystyle (3,7) і (4,10)displaystyle (4,10) (позначені червоним). Ми хочемо знайти лінію y=β1+β2xdisplaystyle y=beta _1+beta _2x, яка найкраще підходить для цих точок. Інакше кажучи, ми хотіли б знайти числа β1displaystyle beta _1 і β2displaystyle beta _2, які приблизно розв'язують надвизначену лінійну систему
- β1+1β2=6β1+2β2=5β1+3β2=7β1+4β2=10displaystyle beginalignedat3beta _1+1beta _2&&;=;&&6&\beta _1+2beta _2&&;=;&&5&\beta _1+3beta _2&&;=;&&7&\beta _1+4beta _2&&;=;&&10&\endalignedat
чотирьох рівнянь з двома невідомими в деякому найкращому сенсі.
Підхід найменших квадратів розв'язання цієї проблеми полягає у спробі зробити якомога меншою суму квадратів похибок між правою і лівою сторонами цієї системи, тобто необхідно знайти мінімум функції
- S(β1,β2)=[6−(β1+1β2)]2+[5−(β1+2β2)]2+[7−(β1+3β2)]2+[10−(β1+4β2)]2.displaystyle beginalignedS(beta _1,beta _2)=&left[6-(beta _1+1beta _2)right]^2+left[5-(beta _1+2beta _2)right]^2\&+left[7-(beta _1+3beta _2)right]^2+left[10-(beta _1+4beta _2)right]^2.endaligned
Мінімум визначають через обчислення часткової похідної від S(β1,β2)displaystyle S(beta _1,beta _2) щодо β1displaystyle beta _1 і β2displaystyle beta _2 і прирівнюванням їх до нуля
- ∂S∂β1=0=8β1+20β2−56displaystyle frac partial Spartial beta _1=0=8beta _1+20beta _2-56
- ∂S∂β2=0=20β1+60β2−154.displaystyle frac partial Spartial beta _2=0=20beta _1+60beta _2-154.
Це приводить нас до системи з двох рівнянь і двох невідомих, які звуться нормальними рівняннями. Якщо розв'язати, ми отримуємо
- β1=3.5displaystyle beta _1=3.5
- β2=1.4displaystyle beta _2=1.4
І рівняння y=3.5+1.4xdisplaystyle y=3.5+1.4x є рівнянням лінії, яка підходить найбільше. Мінімальна сума квадратів похибок є S(3.5,1.4)=1.12+(−1.3)2+(−0.7)2+0.92=4.2.displaystyle S(3.5,1.4)=1.1^2+(-1.3)^2+(-0.7)^2+0.9^2=4.2.
Використання квадратичної моделі |
Важливо, у методі лінійних найменших квадратів ми не обмежені використанням лінії як моделі як у попередньому прикладі. Наприклад, ми могли вибрати обмежену квадратичну модель y=β1x2displaystyle y=beta _1x^2. Ця модель все ще лінійна в сенсі параметру β1displaystyle beta _1, отже ми все ще можемо здійснювати той самий аналіз, будуючи систему рівнянь з точок даних:
- 6=β1(1)25=β1(2)27=β1(3)210=β1(4)2displaystyle beginalignedat26&&;=beta _1(1)^2\5&&;=beta _1(2)^2\7&&;=beta _1(3)^2\10&&;=beta _1(4)^2\endalignedat
Часткові похідні щодо параметрів (цього разу лише одного) знов обчислені і прирівняні до 0:
∂S∂β1=0=708β1−498displaystyle frac partial Spartial beta _1=0=708beta _1-498
і розв'язані
β1=0.703,displaystyle beta _1=0.703,
що призводить до визначенння найбільш підходящої моделі y=0.703x2displaystyle y=0.703x^2
Лінійний випадок |
Одна незалежна змінна |
Нехай маємо лінійну регресію зі скалярною змінною x:
- y=xβ1+β0,displaystyle y=xbeta _1+beta _0,
а також вибірку початкових даних (yi,xi)displaystyle (y_i,x_i) розміру M.
Тоді
- β0=1M∑iyi−β1M∑ixi,β1=M∑ixiyi−∑ixi∑iyiM∑ixi2−(∑ixi)2displaystyle beta _0=frac 1Msum _iy_i-frac beta _1Msum _ix_i,beta _1=frac Msum _ix_iy_i-sum _ix_isum _iy_iMsum _ix_i^2-(sum _ix_i)^2
Множинна регресія (випадок багатьох незалежних змінних) |
Для надлишково-визначеної системи m лінійних рівнянь з n невідомими βj,(m>n):displaystyle beta _j,quad (m>n):
- ∑j=1nXijβj=yi,i=1,m¯,j=1,n¯displaystyle sum _j=1^nX_ijbeta _j=y_i,quad i=overline 1,m,quad j=overline 1,n
чи в матричній формі запису:
- Xβ=y,displaystyle Xboldsymbol beta =mathbf y ,
зазвичай не існує точного розв'язку, і потрібно знайти такі β, які мінімізують наступну норму:
- argminβ∑i=1m|yi−∑j=1nXijβj|2=argminβ‖y−Xβ‖2.displaystyle underset boldsymbol beta operatorname arg,min ,sum _i=1^mleft
Такий розв'язок завжди існує і він є єдиним:
- β^=(X⊤X)−1X⊤ydisplaystyle hat boldsymbol beta =(X^top X)^-1X^top mathbf y
хоч дана формула не є ефективною через необхідність знаходити обернену матрицю.
Виведення формули |
Значення S=∑i=1m|yi−∑j=1nXijβj|2displaystyle S=sum _i=1^mleft досягає мінімуму в точці в якій похідна по кожному параметру рівна нулю. Обчислюючи ці похідні одержимо:
- ∂S∂βj=2∑iri∂ri∂βj=0 (j=1,2,…,n)displaystyle frac partial Spartial beta _j=2sum _ir_ifrac partial r_ipartial beta _j=0 (j=1,2,dots ,n)
де використано позначення ri=yi−∑j=1nXijβj.displaystyle r_i=y_i-sum _j=1^nX_ijbeta _j.
Також виконуються рівності:
- ∂ri∂βj=−Xij.displaystyle frac partial r_ipartial beta _j=-X_ij.
Підставляючи вирази для залишків і їх похідних одержимо рівність:
- ∂S∂βj=−2∑i=1mXij(yi−∑k=1nXikβk)=0.displaystyle frac partial Spartial beta _j=-2sum _i=1^mX_ijleft(y_i-sum _k=1^nX_ikbeta _kright)=0.
Дану рівність можна звести до вигляду:
- ∑i=1m∑k=1nXijXikβ^k=∑i=1mXijyi (j=1,2,…,n)displaystyle sum _i=1^msum _k=1^nX_ijX_ikhat beta _k=sum _i=1^mX_ijy_i (j=1,2,dots ,n),
або в матричній формі:
- (X⊤X)β^=X⊤y.displaystyle (mathbf X ^top mathbf X )hat boldsymbol beta =mathbf X ^top mathbf y .
Числові методи для обчислення розв'язку |
Якщо матриця X⊤Xdisplaystyle X^top X є невиродженою та додатноозначеною, тобто має повний ранг, тоді система може бути розв'язана за допомогою розкладу Холецького X⊤X=R⊤Rdisplaystyle X^top X=R^top R, де Rdisplaystyle R — верхня трикутна матриця.
- R⊤Rβ^=X⊤y.displaystyle R^top Rhat boldsymbol beta =X^top mathbf y .
Розв'язок отримаємо в два кроки:
- Отримаємо zdisplaystyle mathbf z з рівняння R⊤z=X⊤y,displaystyle R^top mathbf z =X^top mathbf y ,
- Підставимо і отримаємо β^displaystyle hat boldsymbol beta з Rβ^=z.displaystyle Rhat boldsymbol beta =mathbf z .
В обох випадках використовуються властивості трикутної матриці.
Статистичні властивості |
Одним із найважливіших застосувань лінійного МНК є оцінка параметрів лінійної регресії. Для заданого набору даних yi,xi1,…,xipi=1ndisplaystyle y_i,,x_i1,ldots ,x_ip_i=1^n будується модель:
- yi=β0β1xi1+⋯+βpxip+εi=xi′β+εi,i=1,…,n,displaystyle y_i=beta _0beta _1x_i1+cdots +beta _px_ip+varepsilon _i=x'_ibeta +varepsilon _i,qquad i=1,ldots ,n,
або в матричній формі:
- y=Xβ+ε,displaystyle y=Xbeta +varepsilon ,,
де:
- y=(y1y2⋮yn),X=(x1′x2′⋮xn′)=(x11⋯x1px21⋯x2p⋮⋱⋮xn1⋯xnp),β=(β1⋮βp),ε=(ε1ε2⋮εn).displaystyle y=beginpmatrixy_1\y_2\vdots \y_nendpmatrix,quad X=beginpmatrixx'_1\x'_2\vdots \x'_nendpmatrix=beginpmatrixx_11&cdots &x_1p\x_21&cdots &x_2p\vdots &ddots &vdots \x_n1&cdots &x_npendpmatrix,quad beta =beginpmatrixbeta _1\vdots \beta _pendpmatrix,quad varepsilon =beginpmatrixvarepsilon _1\varepsilon _2\vdots \varepsilon _nendpmatrix.
В цих формулах βdisplaystyle beta — вектор параметрів, які оцінюються, наприклад, за допомогою методу найменших квадратів, а εdisplaystyle varepsilon — вектор випадкових змінних.
У класичній моделі множинної лінійної регресії приймаються такі умови:
- yi=β0β1xi1+⋯+βpxip+εi=xi′β+εi,i=1,…,n,displaystyle y_i=beta _0beta _1x_i1+cdots +beta _px_ip+varepsilon _i=x'_ibeta +varepsilon _i,qquad i=1,ldots ,n,
- E[εi]=0.displaystyle operatorname E [,varepsilon _i]=0.
- E[εiεj]={σ2i=j0i≠jdisplaystyle operatorname E [,varepsilon _ivarepsilon _j]=begincasessigma ^2&i=j\0&ineq jendcases
- тобто випадкові змінні є гомоскедастичними і між ними відсутня будь-яка залежність.
Ранг матриці X рівний p + 1, тобто між пояснюючими змінними відсутня лінійна залежність.
Для такої моделі оцінка β^displaystyle hat boldsymbol beta одержана методом найменших квадратів володіє властивостями:
Незміщеність. Оцінка β^displaystyle hat boldsymbol beta є незміщеною, тобто E[β^|X]=β.displaystyle operatorname E [,hat beta , Справді:
- E[β^]=E[(X′X)−1X′(Xβ+ε)]=β+E[(X′X)−1X′ε]=β+[(X′X)−1X′ε]E(ε)=βdisplaystyle operatorname E [,hat beta ]=operatorname E Big [(X'X)^-1X'(Xbeta +varepsilon )Big ]=beta +operatorname E Big [(X'X)^-1X'varepsilon Big ]=beta +Big [(X'X)^-1X'varepsilon Big ]operatorname E (varepsilon )=beta
Коваріаційна матриця оцінки β^displaystyle hat boldsymbol beta рівна:
- Var[β^]=σ2(X′X)−1.displaystyle operatorname Var [,hat beta ,]=sigma ^2(X'X)^-1.
- Це випливає з того, що Var[Y]=Var[ε]displaystyle operatorname Var [,Y,]=operatorname Var [,varepsilon ,] і
E[β^]=Var[(X⊤X)−1X⊤Y]=(X⊤X)−1X⊤Var[Y]X(X⊤X)−1=displaystyle operatorname E [,hat beta ]=operatorname Var [,(X^top X)^-1X^top Y,]=(X^top X)^-1X^top operatorname Var [,Y,]X(X^top X)^-1=- =σ2(X′X)−1(X⊤X)−1(X⊤X)=σ2(X′X)−1displaystyle =sigma ^2(X'X)^-1(X^top X)^-1(X^top X)=sigma ^2(X'X)^-1
Ефективність. Згідно з теоремою Гауса — Маркова оцінка, що одержана МНК, є найкращою лінійною незміщеною оцінкою.
Змістовність. При доволі слабких обмеженнях на матрицю X метод найменших квадратів є змістовним, тобто при збільшенні розміру вибірки, оцінка за імовірністю прямує до точного значення параметру. Однією з достатніх умов є наприклад прямування найменшого власного значення матриці (X⊤X)displaystyle (X^top X) до безмежності при збільшенні розміру вибірки.- Якщо додатково припустити нормальність змінних ε,displaystyle varepsilon , то оцінка МНК має розподіл:
- β^ ∼ N(β, σ2(X′X)−1)displaystyle hat beta sim mathcal Nbig (beta , sigma ^2(X'X)^-1big )
В математичному моделюванні |
Нехай ми маємо вибірку початкових даних f(xi)=yi i=1..n¯displaystyle f(x_i)=y_i i=overline 1..n. Функція fdisplaystyle f — невідома.
Якщо ми знаємо приблизний вигляд функції f(x)displaystyle f(x), то задамо її у вигляді функціоналу F(xi,a0,…,am)≈yidisplaystyle F(x_i,a_0,ldots ,a_m)approx y_i, де a0,…,amdisplaystyle a_0,ldots ,a_m — невідомі константи.
Нам потрібно мінімізувати відмінності між Fdisplaystyle F та fdisplaystyle f. Для цього беруть за міру суму квадратів різниць значень цих функцій у всіх точках xidisplaystyle x_i і її мінімізують (тому метод так і називається):
- I(a0,…,am)=∑i=0n(yi−F(xi,a0,…,am))2→mindisplaystyle I(a_0,ldots ,a_m)=sum _i=0^n(y_i-F(x_i,a_0,ldots ,a_m))^2to min
Коефіцієнти ajdisplaystyle a_j в яких така міра мінімальна знаходять з системи:
- {∂I(a0,…,am)∂a0=0…∂I(a0,…,am)∂am=0displaystyle begincasesdisplaystyle frac partial I(a_0,ldots ,a_m)partial a_0=0\ldots \displaystyle frac partial I(a_0,ldots ,a_m)partial a_m=0endcases
Див. також |
- Відстань Кука
- Тест Бройша-Паґана
Джерела |
- Лоусон Ч., Хенсон Р. Численное решение задач методом наименьших квадратов. — М.: Наука, 1986.
Прикладная статистика. Основы эконометрики: Учебник для вузов: В 2 т. 2-е изд., испр. — Т. 2: Айвазян С А. Основы эконометрики. — М.: ЮНИТИ- ДАНА, 2001. — 432 с. ISBN 5-238-00305-6- Björck, Åke (1996). Numerical methods for least squares problems. Philadelphia: SIAM. ISBN 0-89871-360-9.
- Greene, William H. (2002). Econometric analysis (5th ed.). New Jersey: Prentice Hall
Це незавершена стаття зі статистики. Ви можете допомогти проекту, виправивши або дописавши її. |
|