Практичне рішення проблеми мультиколінеарності: Оптимальний метод рідж-регресії та модифікований метод найменших квадратів Тижненко О. Г., Рєзнік Є. В.
Tyzhnenko, Alexander G., and Ryeznik, Yevgen V. (2021) “Practical Treatment of the Multicollinearity: The Optimal Ridge Method and the Modified OLS.” The Problems of Economy 1:155–168. https://doi.org/10.32983/2222-0712-2021-1-155-168
Розділ: Математичні методи та моделі в економіці
Стаття написана англійською мовоюЗавантажень/переглядів: 1 | Завантажити статтю у форматі pdf - |
УДК 330.43(075.8)
Анотація: У цій статті розглядається придатність двох основних методів для вирішення проблеми лінійної регресії (LR) за наявності мультиколінеарності, а саме OLS, та ridge-методу порівняно з рішеннями модифікованого методу OLS (MOLS) [1, 2], який, як і ridge, забезпечує стабільне рішення на будь-якому рівні колінеарності даних. Порівняння проведено методом Монте-Карло із використанням штучного генератора даних (ADG) [1, 2], який генерує лінійні вибірки даних будь-якого розміру. Використання ADG дозволяє нам дослідити проблему регуляризації рівняння OLS. Було виявлено, що можливі дві версії регуляризації: версія COV, яка була запропонована та досліджена в [1, 2], та версія ST, яка зазвичай використовується в літературі та практичних реалізаціях. Запропоновані дослідження показують, що у версії COV ridge метод має приблизно постійний оптимальний регулятор (λ_opt≈0,1) для будь-якого обсягу вибірки та рівня колінеарності. Метод MOLS також має у цій версії приблизно постійний оптимальний регулятор, але він значно менший за значенням (λ_opt≈0,001). У той же час у загальновживаній версії ridge-методу нам потрібен оптимальний регулятор λ_opt≈0,1 (n-1), який залежить від обсягу вибірки n і не є константою. Нам було показано в роботі, що версія ST, яка використовується як правило на практиці разом із ridge-методом, при використанні оптимального параметра λ_opt = 0,1 (n-1), дає строго те саме рішення, що і COV версія хребта з оптимальним регулятором λ_opt = 0,1 [1, 2]. Це дозволяє використовувати коди ridge-методу у всім відомому статистичному програмному забезпеченні, встановлюючи параметр регуляризації λ_opt = 0,1 (n-1) без будь-якого процесу налаштування, незалежно від обсягу вибірки та рівня колінеарності. Ми також показуємо, що таке оптимальне рішення ridge(0,1) наближається до рішення в популяції для досить великого обсягу вибірки, але одночасно має деякі проблеми. Той факт, що метод ridge(0,1) дає зміщення, відомий, але це зміщення, як було показано в роботі, є економічно незначущим. Найважливішим виявленим недоліком є згладжування популяційного рішення: ridge-метод значно зменшує різницю між коефіцієнтами регресії популяції. Отже, ridge(0,1) може дати економічно правильний (з правильними ознаками), але певною мірою неадекватний розв’язок. Неадекватність ridge(0,1) виявляється тим більше, чим більша різниця між коефіцієнтами регресії в популяції. Цим недоліком MOLS практично не володіє, оскільки для нього константа регуляризації має набагато менше значення (0,001 проти 0,1). Через це метод MOLS практично мало страждає як від зміщення, так і від згладжування своїх рішень. З практичної точки зору, обидва методи, ridge(0,1) та MOLS, дають тісні стабільні рішення проблеми LR для будь-якого обсягу вибірки та рівня колінеарності, які наближаються до рішень в популяції зі збільшенням обсягу вибірки. У статті також показано, що для малих вибірок менше 40 переважно використовувати ridge(0,1), оскільки він є більш стабільним. Для середніх та великих зразків переважно використовувати MOLS, оскільки він є більш точним із приблизно однаковою стабільністю.
Ключові слова: мультиколінеарність, економічна коректність, економічна адекватність, модифіковане правило Крамера, модифіковане OLS, оптимальна ridge-регресія
Рис.: 3. Табл.: 5. Формул: 14. Бібл.: 27.
Тижненко Олександр Григорович – кандидат фізико-математичних наук, доцент, доцент, кафедра вищої математики та економіко-математичних методів, Харківський національний економічний університет імені Семена Кузнеця (пр. Науки, 9а, Харків, 61166, Україна) Email: olersandr.tyzhnenko@m.hneu.edu.ua Рєзнік Євген Володимирович – кандидат фізико-математичних наук, викладач, кафедра математики, Уппсальський університет (Легєрхюддсвегєн 1, кор. 1, 6 і 7, Уппсала, 75106, Швеція) Email: yevgen.ryeznik@math.uu.se
Список використаних у статті джерел
Tyzhnenko A. G. A new stable solution to the linear regression problem under multicollinearity. Economics of Development. 2018. Vol. 2 (86). P. 89–99. URL: http://www.ed.ksue.edu.ua/ER/knt/ee182_86/e182tyz.pdf
Tyzhnenko A. G., Ryeznik Y. V. Ordinary List Squares: The Adequacy of Linear Regression Solutions under Multicollinearity and without it. The Problems of Economy. 2019. Vol. 1 (39). P. 217–227. DOI: 10.32983/2222-0712-2019-1-217-227
Seber G. A. F. LR Analysis. New York : Wiley-Blackwell, 1977. 456 p.
Seber G. A. F. LR Analysis. New York : Wiley, 2003. 341 p.
Spanos A. Probability Theory and Statistical Inference: econometric modeling with observational data. Cambridge : Cambridge University Press, 1999. 401 p.
Gujarati D. N. Basic econometrics. New York : McGraw-Hill, 2002. 526 p.
Wooldridge J. M. Introductory Econometrics: Modern Approach. Ohio : South-Western, 2009. 633 p.
Baltagi B. Econometrics. New York : Springer, 2011. 812 p.
Greene W. H. Econometric Analysis. New York : Pearson, 2012. 1211 p.
Draper N. R., Smith H. Applied Regression Analysis. New York : Wiley. 1966. 445 p.
Farrar D., Glauber R. R. Multicollinearity in regression Analysis: The problem revisited. Review of Economics and Statistics. 1967. Vol. 49. P. 92–107.
Hoerl A. E., Kennard R. W. Ridge regression: Biased estimation for nonorthogonal problems. Technometrics. 1970. Vol. 12 (1). P. 55–67.
Marquardt D. V. Generalized Inverses, Ridge Regression, Biased Linear Estimation, and Nonlinear Estimation. Technometrics. 1970. Vol. 12. P. 591–612.
Blanchard O. J. Comment. Journal of Business and Economic Statistics. 1987. No. 5. P. 449–451.
Adkins L. C., Hill R. C. Collinearity // Companion in Theoretical Econometrics / ed. by Badi Baltagi. Oxford : Blackwell Publishers, Ltd, 2001. Р. 256–278.
Belsley D. A., Kuh K., Welsh R. E. Regression Diagnostics: Identifying Influential Data and Sources of Collinearity. New York : Wiley, 1980. 292 р.
Belsley D. A. Demeaning conditioning diagnostics through centering. The American Statistician. 1984. Vol. 38 (2). P. 73–77.
Rao C. R., Toutenberg H. Linear Models: Least Squares and Alternatives. New York : Springer, 1999. 301 р.
Spanos A., McGuirk A. The Problem of Near-Multicollinearity Revisited: erratic vs. systematic volatility. Journal of Econometrics. 2002. Vol. 108. P. 365–393.
Kabanichin S. I. Definitions and Examples of Inverse and Ill-posed Problems. J. Inv. Ill-Posed Problems. 2008. Vol. 16. P. 317–357.
Adkins L. C., Waters M. S., Hill R. C. Collinearity Diagnostics in gretl, Economics Working Paper Series 1506. Oklahoma : Oklahoma State University, Department of Economics and Legal Studies in Business, 2015. 452 p.
Fox J. Applied regression analysis, linear models, and related methods. Thousand Oaks, CA : Sage Publications, 1997. 742 p.
Maddalla G. S. Introduction to Economics. New York : Macmillan, 1992. 396 p.
Harvey A. C. Some Comments on Multicollinearity in Regression. Applied Statistics. 1977. Vol. 26 (2). P. 188–191.
Tikhonov A. N. On the stability of inverse problems. Doklady Acad. Sci. USSR. 1943. Vol. 39. P. 176–179.
Tikhonov A. N., Arsenin, V. Y. Solutions of Ill-Posed Problems. New York : Winston & Sons, 1977. 287 p.
Dougherty C. Introduction to Econometrics. New York : Oxford University Press, 1992. 402 p.
|