Метод найменших квадратів










Метод найменших квадратів — метод знаходження наближеного розв'язку надлишково-визначеної системи. Часто застосовується в регресійному аналізі. На практиці найчастіше використовується лінійний метод найменших квадратів, що використовується у випадку системи лінійних рівнянь. Зокрема важливим застосуванням у цьому випадку є оцінка параметрів у лінійній регресії, що широко застосовується у математичній статистиці і економетриці.




Результат підгонки сукупності спостережень (xi,yi)displaystyle (x_i,y_i) (червоним) квадратичною функцією y=β1+β2x+β3x2displaystyle y=beta _1+beta _2x+beta _3x^2, (синім). У лінійних найменших квадратах функція не повинна бути лінійною у своєму аргументі x,displaystyle x, а лише щодо своїх параметрів βj,displaystyle beta _j, які треба визначити для отримання найкращого результату




Зміст





  • 1 Мотиваційний приклад

    • 1.1 Використання квадратичної моделі



  • 2 Лінійний випадок

    • 2.1 Одна незалежна змінна


    • 2.2 Множинна регресія (випадок багатьох незалежних змінних)


    • 2.3 Виведення формули


    • 2.4 Числові методи для обчислення розв'язку


    • 2.5 Статистичні властивості



  • 3 В математичному моделюванні


  • 4 Див. також


  • 5 Джерела




Мотиваційний приклад |




Графік точок даних (червоним), лінія найменших квадратів (синім) і відстані (зеленим)


В результаті досліду, отримали чотири (x,y)displaystyle (x,y) точки даних: (1,6),displaystyle (1,6), (2,5),displaystyle (2,5), (3,7)displaystyle (3,7) і (4,10)displaystyle (4,10) (позначені червоним). Ми хочемо знайти лінію y=β1+β2xdisplaystyle y=beta _1+beta _2x, яка найкраще підходить для цих точок. Інакше кажучи, ми хотіли б знайти числа β1displaystyle beta _1 і β2displaystyle beta _2, які приблизно розв'язують надвизначену лінійну систему


β1+1β2=6β1+2β2=5β1+3β2=7β1+4β2=10displaystyle beginalignedat3beta _1+1beta _2&&;=;&&6&\beta _1+2beta _2&&;=;&&5&\beta _1+3beta _2&&;=;&&7&\beta _1+4beta _2&&;=;&&10&\endalignedat

чотирьох рівнянь з двома невідомими в деякому найкращому сенсі.


Підхід найменших квадратів розв'язання цієї проблеми полягає у спробі зробити якомога меншою суму квадратів похибок між правою і лівою сторонами цієї системи, тобто необхідно знайти мінімум функції


S(β1,β2)=[6−(β1+1β2)]2+[5−(β1+2β2)]2+[7−(β1+3β2)]2+[10−(β1+4β2)]2.displaystyle beginalignedS(beta _1,beta _2)=&left[6-(beta _1+1beta _2)right]^2+left[5-(beta _1+2beta _2)right]^2\&+left[7-(beta _1+3beta _2)right]^2+left[10-(beta _1+4beta _2)right]^2.endaligned

Мінімум визначають через обчислення часткової похідної від S(β1,β2)displaystyle S(beta _1,beta _2) щодо β1displaystyle beta _1 і β2displaystyle beta _2 і прирівнюванням їх до нуля


∂S∂β1=0=8β1+20β2−56displaystyle frac partial Spartial beta _1=0=8beta _1+20beta _2-56

∂S∂β2=0=20β1+60β2−154.displaystyle frac partial Spartial beta _2=0=20beta _1+60beta _2-154.

Це приводить нас до системи з двох рівнянь і двох невідомих, які звуться нормальними рівняннями. Якщо розв'язати, ми отримуємо


β1=3.5displaystyle beta _1=3.5

β2=1.4displaystyle beta _2=1.4

І рівняння y=3.5+1.4xdisplaystyle y=3.5+1.4x є рівнянням лінії, яка підходить найбільше. Мінімальна сума квадратів похибок є S(3.5,1.4)=1.12+(−1.3)2+(−0.7)2+0.92=4.2.displaystyle S(3.5,1.4)=1.1^2+(-1.3)^2+(-0.7)^2+0.9^2=4.2.



Використання квадратичної моделі |


Важливо, у методі лінійних найменших квадратів ми не обмежені використанням лінії як моделі як у попередньому прикладі. Наприклад, ми могли вибрати обмежену квадратичну модель y=β1x2displaystyle y=beta _1x^2. Ця модель все ще лінійна в сенсі параметру β1displaystyle beta _1, отже ми все ще можемо здійснювати той самий аналіз, будуючи систему рівнянь з точок даних:


6=β1(1)25=β1(2)27=β1(3)210=β1(4)2displaystyle beginalignedat26&&;=beta _1(1)^2\5&&;=beta _1(2)^2\7&&;=beta _1(3)^2\10&&;=beta _1(4)^2\endalignedat

Часткові похідні щодо параметрів (цього разу лише одного) знов обчислені і прирівняні до 0:


∂S∂β1=0=708β1−498displaystyle frac partial Spartial beta _1=0=708beta _1-498


і розв'язані


β1=0.703,displaystyle beta _1=0.703,


що призводить до визначенння найбільш підходящої моделі y=0.703x2displaystyle y=0.703x^2



Лінійний випадок |



Одна незалежна змінна |


Нехай маємо лінійну регресію зі скалярною змінною x:


y=xβ1+β0,displaystyle y=xbeta _1+beta _0,

а також вибірку початкових даних (yi,xi)displaystyle (y_i,x_i) розміру M.
Тоді


β0=1M∑iyi−β1M∑ixi,β1=M∑ixiyi−∑ixi∑iyiM∑ixi2−(∑ixi)2displaystyle beta _0=frac 1Msum _iy_i-frac beta _1Msum _ix_i,beta _1=frac Msum _ix_iy_i-sum _ix_isum _iy_iMsum _ix_i^2-(sum _ix_i)^2


Множинна регресія (випадок багатьох незалежних змінних) |


Для надлишково-визначеної системи m лінійних рівнянь з n невідомими βj,(m>n):displaystyle beta _j,quad (m>n):


∑j=1nXijβj=yi,i=1,m¯,j=1,n¯displaystyle sum _j=1^nX_ijbeta _j=y_i,quad i=overline 1,m,quad j=overline 1,n

чи в матричній формі запису:


Xβ=y,displaystyle Xboldsymbol beta =mathbf y ,

зазвичай не існує точного розв'язку, і потрібно знайти такі β, які мінімізують наступну норму:


argminβ∑i=1m|yi−∑j=1nXijβj|2=argminβ‖y−Xβ‖2.displaystyle underset boldsymbol beta operatorname arg,min ,sum _i=1^mleft

Такий розв'язок завжди існує і він є єдиним:


β^=(X⊤X)−1X⊤ydisplaystyle hat boldsymbol beta =(X^top X)^-1X^top mathbf y

хоч дана формула не є ефективною через необхідність знаходити обернену матрицю.



Виведення формули |


Значення S=∑i=1m|yi−∑j=1nXijβj|2displaystyle S=sum _i=1^mleft досягає мінімуму в точці в якій похідна по кожному параметру рівна нулю. Обчислюючи ці похідні одержимо:


∂S∂βj=2∑iri∂ri∂βj=0 (j=1,2,…,n)displaystyle frac partial Spartial beta _j=2sum _ir_ifrac partial r_ipartial beta _j=0 (j=1,2,dots ,n)

де використано позначення ri=yi−∑j=1nXijβj.displaystyle r_i=y_i-sum _j=1^nX_ijbeta _j.


Також виконуються рівності:


∂ri∂βj=−Xij.displaystyle frac partial r_ipartial beta _j=-X_ij.

Підставляючи вирази для залишків і їх похідних одержимо рівність:


∂S∂βj=−2∑i=1mXij(yi−∑k=1nXikβk)=0.displaystyle frac partial Spartial beta _j=-2sum _i=1^mX_ijleft(y_i-sum _k=1^nX_ikbeta _kright)=0.

Дану рівність можна звести до вигляду:


∑i=1m∑k=1nXijXikβ^k=∑i=1mXijyi (j=1,2,…,n)displaystyle sum _i=1^msum _k=1^nX_ijX_ikhat beta _k=sum _i=1^mX_ijy_i (j=1,2,dots ,n),

або в матричній формі:


(X⊤X)β^=X⊤y.displaystyle (mathbf X ^top mathbf X )hat boldsymbol beta =mathbf X ^top mathbf y .


Числові методи для обчислення розв'язку |


Якщо матриця  X⊤Xdisplaystyle X^top X є невиродженою та додатноозначеною, тобто має повний ранг, тоді система може бути розв'язана за допомогою розкладу Холецького X⊤X=R⊤Rdisplaystyle X^top X=R^top R, де Rdisplaystyle R — верхня трикутна матриця.


R⊤Rβ^=X⊤y.displaystyle R^top Rhat boldsymbol beta =X^top mathbf y .

Розв'язок отримаємо в два кроки:


  1. Отримаємо zdisplaystyle mathbf z з рівняння R⊤z=X⊤y,displaystyle R^top mathbf z =X^top mathbf y ,

  2. Підставимо і отримаємо β^displaystyle hat boldsymbol beta з Rβ^=z.displaystyle Rhat boldsymbol beta =mathbf z .

В обох випадках використовуються властивості трикутної матриці.



Статистичні властивості |


Одним із найважливіших застосувань лінійного МНК є оцінка параметрів лінійної регресії. Для заданого набору даних yi,xi1,…,xipi=1ndisplaystyle y_i,,x_i1,ldots ,x_ip_i=1^n будується модель:


yi=β0β1xi1+⋯+βpxip+εi=xi′β+εi,i=1,…,n,displaystyle y_i=beta _0beta _1x_i1+cdots +beta _px_ip+varepsilon _i=x'_ibeta +varepsilon _i,qquad i=1,ldots ,n,

або в матричній формі:


y=Xβ+ε,displaystyle y=Xbeta +varepsilon ,,

де:


y=(y1y2⋮yn),X=(x1′x2′⋮xn′)=(x11⋯x1px21⋯x2p⋮⋱⋮xn1⋯xnp),β=(β1⋮βp),ε=(ε1ε2⋮εn).displaystyle y=beginpmatrixy_1\y_2\vdots \y_nendpmatrix,quad X=beginpmatrixx'_1\x'_2\vdots \x'_nendpmatrix=beginpmatrixx_11&cdots &x_1p\x_21&cdots &x_2p\vdots &ddots &vdots \x_n1&cdots &x_npendpmatrix,quad beta =beginpmatrixbeta _1\vdots \beta _pendpmatrix,quad varepsilon =beginpmatrixvarepsilon _1\varepsilon _2\vdots \varepsilon _nendpmatrix.

В цих формулах βdisplaystyle beta  — вектор параметрів, які оцінюються, наприклад, за допомогою методу найменших квадратів, а εdisplaystyle varepsilon  — вектор випадкових змінних.


У класичній моделі множинної лінійної регресії приймаються такі умови:


  • yi=β0β1xi1+⋯+βpxip+εi=xi′β+εi,i=1,…,n,displaystyle y_i=beta _0beta _1x_i1+cdots +beta _px_ip+varepsilon _i=x'_ibeta +varepsilon _i,qquad i=1,ldots ,n,

  • E⁡[εi]=0.displaystyle operatorname E [,varepsilon _i]=0.

  • E⁡[εiεj]={σ2i=j0i≠jdisplaystyle operatorname E [,varepsilon _ivarepsilon _j]=begincasessigma ^2&i=j\0&ineq jendcases

тобто випадкові змінні є гомоскедастичними і між ними відсутня будь-яка залежність.

  • Ранг матриці X рівний p + 1, тобто між пояснюючими змінними відсутня лінійна залежність.

Для такої моделі оцінка β^displaystyle hat boldsymbol beta одержана методом найменших квадратів володіє властивостями:



  • Незміщеність. Оцінка β^displaystyle hat boldsymbol beta є незміщеною, тобто E⁡[β^|X]=β.displaystyle operatorname E [,hat beta , Справді:
E⁡[β^]=E⁡[(X′X)−1X′(Xβ+ε)]=β+E⁡[(X′X)−1X′ε]=β+[(X′X)−1X′ε]E⁡(ε)=βdisplaystyle operatorname E [,hat beta ]=operatorname E Big [(X'X)^-1X'(Xbeta +varepsilon )Big ]=beta +operatorname E Big [(X'X)^-1X'varepsilon Big ]=beta +Big [(X'X)^-1X'varepsilon Big ]operatorname E (varepsilon )=beta

  • Коваріаційна матриця оцінки β^displaystyle hat boldsymbol beta рівна:
Var⁡[β^]=σ2(X′X)−1.displaystyle operatorname Var [,hat beta ,]=sigma ^2(X'X)^-1.

Це випливає з того, що Var⁡[Y]=Var⁡[ε]displaystyle operatorname Var [,Y,]=operatorname Var [,varepsilon ,] і


E⁡[β^]=Var⁡[(X⊤X)−1X⊤Y]=(X⊤X)−1X⊤Var⁡[Y]X(X⊤X)−1=displaystyle operatorname E [,hat beta ]=operatorname Var [,(X^top X)^-1X^top Y,]=(X^top X)^-1X^top operatorname Var [,Y,]X(X^top X)^-1=
=σ2(X′X)−1(X⊤X)−1(X⊤X)=σ2(X′X)−1displaystyle =sigma ^2(X'X)^-1(X^top X)^-1(X^top X)=sigma ^2(X'X)^-1


  • Ефективність. Згідно з теоремою Гауса — Маркова оцінка, що одержана МНК, є найкращою лінійною незміщеною оцінкою.


  • Змістовність. При доволі слабких обмеженнях на матрицю X метод найменших квадратів є змістовним, тобто при збільшенні розміру вибірки, оцінка за імовірністю прямує до точного значення параметру. Однією з достатніх умов є наприклад прямування найменшого власного значення матриці (X⊤X)displaystyle (X^top X) до безмежності при збільшенні розміру вибірки.

  • Якщо додатково припустити нормальність змінних ε,displaystyle varepsilon , то оцінка МНК має розподіл:

β^ ∼ N(β, σ2(X′X)−1)displaystyle hat beta sim mathcal Nbig (beta , sigma ^2(X'X)^-1big )


В математичному моделюванні |


Нехай ми маємо вибірку початкових даних f(xi)=yi i=1..n¯displaystyle f(x_i)=y_i i=overline 1..n. Функція fdisplaystyle f — невідома.


Якщо ми знаємо приблизний вигляд функції f(x)displaystyle f(x), то задамо її у вигляді функціоналу F(xi,a0,…,am)≈yidisplaystyle F(x_i,a_0,ldots ,a_m)approx y_i, де a0,…,amdisplaystyle a_0,ldots ,a_m — невідомі константи.


Нам потрібно мінімізувати відмінності між Fdisplaystyle F та fdisplaystyle f. Для цього беруть за міру суму квадратів різниць значень цих функцій у всіх точках xidisplaystyle x_i і її мінімізують (тому метод так і називається):


I(a0,…,am)=∑i=0n(yi−F(xi,a0,…,am))2→mindisplaystyle I(a_0,ldots ,a_m)=sum _i=0^n(y_i-F(x_i,a_0,ldots ,a_m))^2to min

Коефіцієнти ajdisplaystyle a_j в яких така міра мінімальна знаходять з системи:


{∂I(a0,…,am)∂a0=0…∂I(a0,…,am)∂am=0displaystyle begincasesdisplaystyle frac partial I(a_0,ldots ,a_m)partial a_0=0\ldots \displaystyle frac partial I(a_0,ldots ,a_m)partial a_m=0endcases


Див. також |


  • Відстань Кука

  • Тест Бройша-Паґана


Джерела |


  • Лоусон Ч., Хенсон Р. Численное решение задач методом наименьших квадратов. — М.: Наука, 1986.


  • Прикладная статистика. Основы эконометрики: Учебник для вузов: В 2 т. 2-е изд., испр. — Т. 2: Айвазян С А. Основы эконометрики. — М.: ЮНИТИ- ДАНА, 2001. — 432 с. ISBN 5-238-00305-6

  • Björck, Åke (1996). Numerical methods for least squares problems. Philadelphia: SIAM. ISBN 0-89871-360-9.

  • Greene, William H. (2002). Econometric analysis (5th ed.). New Jersey: Prentice Hall








Popular posts from this blog

Save data to MySQL database using ExtJS and PHP [closed]2019 Community Moderator ElectionHow can I prevent SQL injection in PHP?Which MySQL data type to use for storing boolean valuesPHP: Delete an element from an arrayHow do I connect to a MySQL Database in Python?Should I use the datetime or timestamp data type in MySQL?How to get a list of MySQL user accountsHow Do You Parse and Process HTML/XML in PHP?Reference — What does this symbol mean in PHP?How does PHP 'foreach' actually work?Why shouldn't I use mysql_* functions in PHP?

Compiling GNU Global with universal-ctags support Announcing the arrival of Valued Associate #679: Cesar Manara Planned maintenance scheduled April 23, 2019 at 23:30 UTC (7:30pm US/Eastern) Data science time! April 2019 and salary with experience The Ask Question Wizard is Live!Tags for Emacs: Relationship between etags, ebrowse, cscope, GNU Global and exuberant ctagsVim and Ctags tips and trickscscope or ctags why choose one over the other?scons and ctagsctags cannot open option file “.ctags”Adding tag scopes in universal-ctagsShould I use Universal-ctags?Universal ctags on WindowsHow do I install GNU Global with universal ctags support using Homebrew?Universal ctags with emacsHow to highlight ctags generated by Universal Ctags in Vim?

Add ONERROR event to image from jsp tldHow to add an image to a JPanel?Saving image from PHP URLHTML img scalingCheck if an image is loaded (no errors) with jQueryHow to force an <img> to take up width, even if the image is not loadedHow do I populate hidden form field with a value set in Spring ControllerStyling Raw elements Generated from JSP tagds with Jquery MobileLimit resizing of images with explicitly set width and height attributeserror TLD use in a jsp fileJsp tld files cannot be resolved