Метод найменших квадратів










Метод найменших квадратів — метод знаходження наближеного розв'язку надлишково-визначеної системи. Часто застосовується в регресійному аналізі. На практиці найчастіше використовується лінійний метод найменших квадратів, що використовується у випадку системи лінійних рівнянь. Зокрема важливим застосуванням у цьому випадку є оцінка параметрів у лінійній регресії, що широко застосовується у математичній статистиці і економетриці.




Результат підгонки сукупності спостережень (xi,yi)displaystyle (x_i,y_i) (червоним) квадратичною функцією y=β1+β2x+β3x2displaystyle y=beta _1+beta _2x+beta _3x^2, (синім). У лінійних найменших квадратах функція не повинна бути лінійною у своєму аргументі x,displaystyle x, а лише щодо своїх параметрів βj,displaystyle beta _j, які треба визначити для отримання найкращого результату




Зміст





  • 1 Мотиваційний приклад

    • 1.1 Використання квадратичної моделі



  • 2 Лінійний випадок

    • 2.1 Одна незалежна змінна


    • 2.2 Множинна регресія (випадок багатьох незалежних змінних)


    • 2.3 Виведення формули


    • 2.4 Числові методи для обчислення розв'язку


    • 2.5 Статистичні властивості



  • 3 В математичному моделюванні


  • 4 Див. також


  • 5 Джерела




Мотиваційний приклад |




Графік точок даних (червоним), лінія найменших квадратів (синім) і відстані (зеленим)


В результаті досліду, отримали чотири (x,y)displaystyle (x,y) точки даних: (1,6),displaystyle (1,6), (2,5),displaystyle (2,5), (3,7)displaystyle (3,7) і (4,10)displaystyle (4,10) (позначені червоним). Ми хочемо знайти лінію y=β1+β2xdisplaystyle y=beta _1+beta _2x, яка найкраще підходить для цих точок. Інакше кажучи, ми хотіли б знайти числа β1displaystyle beta _1 і β2displaystyle beta _2, які приблизно розв'язують надвизначену лінійну систему


β1+1β2=6β1+2β2=5β1+3β2=7β1+4β2=10displaystyle beginalignedat3beta _1+1beta _2&&;=;&&6&\beta _1+2beta _2&&;=;&&5&\beta _1+3beta _2&&;=;&&7&\beta _1+4beta _2&&;=;&&10&\endalignedat

чотирьох рівнянь з двома невідомими в деякому найкращому сенсі.


Підхід найменших квадратів розв'язання цієї проблеми полягає у спробі зробити якомога меншою суму квадратів похибок між правою і лівою сторонами цієї системи, тобто необхідно знайти мінімум функції


S(β1,β2)=[6−(β1+1β2)]2+[5−(β1+2β2)]2+[7−(β1+3β2)]2+[10−(β1+4β2)]2.displaystyle beginalignedS(beta _1,beta _2)=&left[6-(beta _1+1beta _2)right]^2+left[5-(beta _1+2beta _2)right]^2\&+left[7-(beta _1+3beta _2)right]^2+left[10-(beta _1+4beta _2)right]^2.endaligned

Мінімум визначають через обчислення часткової похідної від S(β1,β2)displaystyle S(beta _1,beta _2) щодо β1displaystyle beta _1 і β2displaystyle beta _2 і прирівнюванням їх до нуля


∂S∂β1=0=8β1+20β2−56displaystyle frac partial Spartial beta _1=0=8beta _1+20beta _2-56

∂S∂β2=0=20β1+60β2−154.displaystyle frac partial Spartial beta _2=0=20beta _1+60beta _2-154.

Це приводить нас до системи з двох рівнянь і двох невідомих, які звуться нормальними рівняннями. Якщо розв'язати, ми отримуємо


β1=3.5displaystyle beta _1=3.5

β2=1.4displaystyle beta _2=1.4

І рівняння y=3.5+1.4xdisplaystyle y=3.5+1.4x є рівнянням лінії, яка підходить найбільше. Мінімальна сума квадратів похибок є S(3.5,1.4)=1.12+(−1.3)2+(−0.7)2+0.92=4.2.displaystyle S(3.5,1.4)=1.1^2+(-1.3)^2+(-0.7)^2+0.9^2=4.2.



Використання квадратичної моделі |


Важливо, у методі лінійних найменших квадратів ми не обмежені використанням лінії як моделі як у попередньому прикладі. Наприклад, ми могли вибрати обмежену квадратичну модель y=β1x2displaystyle y=beta _1x^2. Ця модель все ще лінійна в сенсі параметру β1displaystyle beta _1, отже ми все ще можемо здійснювати той самий аналіз, будуючи систему рівнянь з точок даних:


6=β1(1)25=β1(2)27=β1(3)210=β1(4)2displaystyle beginalignedat26&&;=beta _1(1)^2\5&&;=beta _1(2)^2\7&&;=beta _1(3)^2\10&&;=beta _1(4)^2\endalignedat

Часткові похідні щодо параметрів (цього разу лише одного) знов обчислені і прирівняні до 0:


∂S∂β1=0=708β1−498displaystyle frac partial Spartial beta _1=0=708beta _1-498


і розв'язані


β1=0.703,displaystyle beta _1=0.703,


що призводить до визначенння найбільш підходящої моделі y=0.703x2displaystyle y=0.703x^2



Лінійний випадок |



Одна незалежна змінна |


Нехай маємо лінійну регресію зі скалярною змінною x:


y=xβ1+β0,displaystyle y=xbeta _1+beta _0,

а також вибірку початкових даних (yi,xi)displaystyle (y_i,x_i) розміру M.
Тоді


β0=1M∑iyi−β1M∑ixi,β1=M∑ixiyi−∑ixi∑iyiM∑ixi2−(∑ixi)2displaystyle beta _0=frac 1Msum _iy_i-frac beta _1Msum _ix_i,beta _1=frac Msum _ix_iy_i-sum _ix_isum _iy_iMsum _ix_i^2-(sum _ix_i)^2


Множинна регресія (випадок багатьох незалежних змінних) |


Для надлишково-визначеної системи m лінійних рівнянь з n невідомими βj,(m>n):displaystyle beta _j,quad (m>n):


∑j=1nXijβj=yi,i=1,m¯,j=1,n¯displaystyle sum _j=1^nX_ijbeta _j=y_i,quad i=overline 1,m,quad j=overline 1,n

чи в матричній формі запису:


Xβ=y,displaystyle Xboldsymbol beta =mathbf y ,

зазвичай не існує точного розв'язку, і потрібно знайти такі β, які мінімізують наступну норму:


argminβ∑i=1m|yi−∑j=1nXijβj|2=argminβ‖y−Xβ‖2.displaystyle underset boldsymbol beta operatorname arg,min ,sum _i=1^mleft

Такий розв'язок завжди існує і він є єдиним:


β^=(X⊤X)−1X⊤ydisplaystyle hat boldsymbol beta =(X^top X)^-1X^top mathbf y

хоч дана формула не є ефективною через необхідність знаходити обернену матрицю.



Виведення формули |


Значення S=∑i=1m|yi−∑j=1nXijβj|2displaystyle S=sum _i=1^mleft досягає мінімуму в точці в якій похідна по кожному параметру рівна нулю. Обчислюючи ці похідні одержимо:


∂S∂βj=2∑iri∂ri∂βj=0 (j=1,2,…,n)displaystyle frac partial Spartial beta _j=2sum _ir_ifrac partial r_ipartial beta _j=0 (j=1,2,dots ,n)

де використано позначення ri=yi−∑j=1nXijβj.displaystyle r_i=y_i-sum _j=1^nX_ijbeta _j.


Також виконуються рівності:


∂ri∂βj=−Xij.displaystyle frac partial r_ipartial beta _j=-X_ij.

Підставляючи вирази для залишків і їх похідних одержимо рівність:


∂S∂βj=−2∑i=1mXij(yi−∑k=1nXikβk)=0.displaystyle frac partial Spartial beta _j=-2sum _i=1^mX_ijleft(y_i-sum _k=1^nX_ikbeta _kright)=0.

Дану рівність можна звести до вигляду:


∑i=1m∑k=1nXijXikβ^k=∑i=1mXijyi (j=1,2,…,n)displaystyle sum _i=1^msum _k=1^nX_ijX_ikhat beta _k=sum _i=1^mX_ijy_i (j=1,2,dots ,n),

або в матричній формі:


(X⊤X)β^=X⊤y.displaystyle (mathbf X ^top mathbf X )hat boldsymbol beta =mathbf X ^top mathbf y .


Числові методи для обчислення розв'язку |


Якщо матриця  X⊤Xdisplaystyle X^top X є невиродженою та додатноозначеною, тобто має повний ранг, тоді система може бути розв'язана за допомогою розкладу Холецького X⊤X=R⊤Rdisplaystyle X^top X=R^top R, де Rdisplaystyle R — верхня трикутна матриця.


R⊤Rβ^=X⊤y.displaystyle R^top Rhat boldsymbol beta =X^top mathbf y .

Розв'язок отримаємо в два кроки:


  1. Отримаємо zdisplaystyle mathbf z з рівняння R⊤z=X⊤y,displaystyle R^top mathbf z =X^top mathbf y ,

  2. Підставимо і отримаємо β^displaystyle hat boldsymbol beta з Rβ^=z.displaystyle Rhat boldsymbol beta =mathbf z .

В обох випадках використовуються властивості трикутної матриці.



Статистичні властивості |


Одним із найважливіших застосувань лінійного МНК є оцінка параметрів лінійної регресії. Для заданого набору даних yi,xi1,…,xipi=1ndisplaystyle y_i,,x_i1,ldots ,x_ip_i=1^n будується модель:


yi=β0β1xi1+⋯+βpxip+εi=xi′β+εi,i=1,…,n,displaystyle y_i=beta _0beta _1x_i1+cdots +beta _px_ip+varepsilon _i=x'_ibeta +varepsilon _i,qquad i=1,ldots ,n,

або в матричній формі:


y=Xβ+ε,displaystyle y=Xbeta +varepsilon ,,

де:


y=(y1y2⋮yn),X=(x1′x2′⋮xn′)=(x11⋯x1px21⋯x2p⋮⋱⋮xn1⋯xnp),β=(β1⋮βp),ε=(ε1ε2⋮εn).displaystyle y=beginpmatrixy_1\y_2\vdots \y_nendpmatrix,quad X=beginpmatrixx'_1\x'_2\vdots \x'_nendpmatrix=beginpmatrixx_11&cdots &x_1p\x_21&cdots &x_2p\vdots &ddots &vdots \x_n1&cdots &x_npendpmatrix,quad beta =beginpmatrixbeta _1\vdots \beta _pendpmatrix,quad varepsilon =beginpmatrixvarepsilon _1\varepsilon _2\vdots \varepsilon _nendpmatrix.

В цих формулах βdisplaystyle beta  — вектор параметрів, які оцінюються, наприклад, за допомогою методу найменших квадратів, а εdisplaystyle varepsilon  — вектор випадкових змінних.


У класичній моделі множинної лінійної регресії приймаються такі умови:


  • yi=β0β1xi1+⋯+βpxip+εi=xi′β+εi,i=1,…,n,displaystyle y_i=beta _0beta _1x_i1+cdots +beta _px_ip+varepsilon _i=x'_ibeta +varepsilon _i,qquad i=1,ldots ,n,

  • E⁡[εi]=0.displaystyle operatorname E [,varepsilon _i]=0.

  • E⁡[εiεj]={σ2i=j0i≠jdisplaystyle operatorname E [,varepsilon _ivarepsilon _j]=begincasessigma ^2&i=j\0&ineq jendcases

тобто випадкові змінні є гомоскедастичними і між ними відсутня будь-яка залежність.

  • Ранг матриці X рівний p + 1, тобто між пояснюючими змінними відсутня лінійна залежність.

Для такої моделі оцінка β^displaystyle hat boldsymbol beta одержана методом найменших квадратів володіє властивостями:



  • Незміщеність. Оцінка β^displaystyle hat boldsymbol beta є незміщеною, тобто E⁡[β^|X]=β.displaystyle operatorname E [,hat beta , Справді:
E⁡[β^]=E⁡[(X′X)−1X′(Xβ+ε)]=β+E⁡[(X′X)−1X′ε]=β+[(X′X)−1X′ε]E⁡(ε)=βdisplaystyle operatorname E [,hat beta ]=operatorname E Big [(X'X)^-1X'(Xbeta +varepsilon )Big ]=beta +operatorname E Big [(X'X)^-1X'varepsilon Big ]=beta +Big [(X'X)^-1X'varepsilon Big ]operatorname E (varepsilon )=beta

  • Коваріаційна матриця оцінки β^displaystyle hat boldsymbol beta рівна:
Var⁡[β^]=σ2(X′X)−1.displaystyle operatorname Var [,hat beta ,]=sigma ^2(X'X)^-1.

Це випливає з того, що Var⁡[Y]=Var⁡[ε]displaystyle operatorname Var [,Y,]=operatorname Var [,varepsilon ,] і


E⁡[β^]=Var⁡[(X⊤X)−1X⊤Y]=(X⊤X)−1X⊤Var⁡[Y]X(X⊤X)−1=displaystyle operatorname E [,hat beta ]=operatorname Var [,(X^top X)^-1X^top Y,]=(X^top X)^-1X^top operatorname Var [,Y,]X(X^top X)^-1=
=σ2(X′X)−1(X⊤X)−1(X⊤X)=σ2(X′X)−1displaystyle =sigma ^2(X'X)^-1(X^top X)^-1(X^top X)=sigma ^2(X'X)^-1


  • Ефективність. Згідно з теоремою Гауса — Маркова оцінка, що одержана МНК, є найкращою лінійною незміщеною оцінкою.


  • Змістовність. При доволі слабких обмеженнях на матрицю X метод найменших квадратів є змістовним, тобто при збільшенні розміру вибірки, оцінка за імовірністю прямує до точного значення параметру. Однією з достатніх умов є наприклад прямування найменшого власного значення матриці (X⊤X)displaystyle (X^top X) до безмежності при збільшенні розміру вибірки.

  • Якщо додатково припустити нормальність змінних ε,displaystyle varepsilon , то оцінка МНК має розподіл:

β^ ∼ N(β, σ2(X′X)−1)displaystyle hat beta sim mathcal Nbig (beta , sigma ^2(X'X)^-1big )


В математичному моделюванні |


Нехай ми маємо вибірку початкових даних f(xi)=yi i=1..n¯displaystyle f(x_i)=y_i i=overline 1..n. Функція fdisplaystyle f — невідома.


Якщо ми знаємо приблизний вигляд функції f(x)displaystyle f(x), то задамо її у вигляді функціоналу F(xi,a0,…,am)≈yidisplaystyle F(x_i,a_0,ldots ,a_m)approx y_i, де a0,…,amdisplaystyle a_0,ldots ,a_m — невідомі константи.


Нам потрібно мінімізувати відмінності між Fdisplaystyle F та fdisplaystyle f. Для цього беруть за міру суму квадратів різниць значень цих функцій у всіх точках xidisplaystyle x_i і її мінімізують (тому метод так і називається):


I(a0,…,am)=∑i=0n(yi−F(xi,a0,…,am))2→mindisplaystyle I(a_0,ldots ,a_m)=sum _i=0^n(y_i-F(x_i,a_0,ldots ,a_m))^2to min

Коефіцієнти ajdisplaystyle a_j в яких така міра мінімальна знаходять з системи:


{∂I(a0,…,am)∂a0=0…∂I(a0,…,am)∂am=0displaystyle begincasesdisplaystyle frac partial I(a_0,ldots ,a_m)partial a_0=0\ldots \displaystyle frac partial I(a_0,ldots ,a_m)partial a_m=0endcases


Див. також |


  • Відстань Кука

  • Тест Бройша-Паґана


Джерела |


  • Лоусон Ч., Хенсон Р. Численное решение задач методом наименьших квадратов. — М.: Наука, 1986.


  • Прикладная статистика. Основы эконометрики: Учебник для вузов: В 2 т. 2-е изд., испр. — Т. 2: Айвазян С А. Основы эконометрики. — М.: ЮНИТИ- ДАНА, 2001. — 432 с. ISBN 5-238-00305-6

  • Björck, Åke (1996). Numerical methods for least squares problems. Philadelphia: SIAM. ISBN 0-89871-360-9.

  • Greene, William H. (2002). Econometric analysis (5th ed.). New Jersey: Prentice Hall








Popular posts from this blog

1928 у кіно

Захаров Федір Захарович

Ель Греко