Zusammenfassung der Ressource
Эконометрика
Anmerkungen:
- P-value - вероятность ошибки первого рода, то есть, применимо к тестам, вероятность совершить ошибку, отклоняя нулевую гипотезу
- Типы данных
Anmerkungen:
- R, работа с данными:
пакеты:
psych
функции:
* data.frame()
* mutate()
* select(набор данных, нужные переменные), синтаксис: * - все переменные, -переменная - удалит переменную
* describe(данные) {psych} - описательные статистики
* augment(модель, данные) - добавляет в данные остатки в соответствии с моделью (и не только)* cor(данные) - корреляционная матрица по данным*
- Временные ряды
Anmerkungen:
- Наблюдения одной и той же характеристики фиксируются во времени для одного объекта. Иначе говоря, несколько объектов, одна характеристика, несколько периодов времени
- Панельные данные
Anmerkungen:
- Фиксация проводится по обоим измерениям ‑ в разные моменты времени для одного и того же набора объектов. То есть, несколько объектов, несколько характеристик, несколько периодов времени
- Перекрёстные выборки
Anmerkungen:
- Наблюдения одной и той же характеристики фиксируются одномоментно для разных объектов. Проще говоря, несколько объектов, несколько характеристик, один временной период
- Для R:
Пакеты:
Функции:* cor (model.matrix) - считает выборочную корреляцию между регрессорами из матрицы X
- Строим график
Anmerkungen:
- Изучаем визуально данные, смотрим зависимости, определяем потенциальную форму зависимости.
- Для R:
пакет: ggplot2
функции: qplot(),
- Строим модель
- Метод наименьших квадратов (OLS)
Anmerkungen:
- Мы предполагаем, что истинная зависимость одного параметра от другого (других) выглядит так:
\(y = X\beta+\epsilon\), где
\(y\) - вектор-столбец зависимого параметра, размерностью \(n\);
\(X\) - матрица регрессоров (независимых переменных), размерностью \(n*k\);
\(\beta\) - вектор-столбец истинных коэффициентов при регрессорах, размерностью \(k*1\);
\(\epsilon\) - вектор-столбец случайных отклонений, размерностью \(n*1\);
Мы хотим найти функцию, максимально близкую к истинной:
\(\hat y = X\hat \beta + e\), где
\(\hat y\) - вектор-столбец \(n*1\) подобранные значения истинного \(y\) (по имеющимся регрессорам);
\(X\) - как и раньше, \(n*k\) матрица регрессоров;
\(b\) - вектор-столбец \(k*1\) подобранных коэффициентов при регрессорах;
\(e\) - вектор-столбец \(n*1\) отклонений модели, то есть, \(e = \hat y - y\)
Как найти \(\hat y\)?
Используя метод наименьших квадратов, мы ставим целью минимизировать отклонения нашего модельного \(\hat y\) от имеющегося фактического \(y\). Для этого, мы минимизируем сумму квадратов отклонений:
\(RSS = \Sigma^n_{i=1}=e^2 \rightarrow min\)
\(RSS=(y-\hat y)^T(y - \hat y)=y^Ty-2y^TX\beta+\)
\(\beta^TX^TX\beta\)
\(\frac {\partial RSS}{\partial \beta}=-2(X^Ty-X^TX\beta)=0\)
\(\hat \beta=(X^TX)^{-1}X^Ty\) или
\(\hat \beta = \beta+(X^TX)^{-1}X^T\epsilon\)
Таким образом, для существования \(\hat \beta\) необходимо, чтобы матрица \(X^TX\) была положительно определённой, то есть, имела обратную - а соответственно, между регрессорами не должно существовать линейной зависимости (то есть, строгой мультиколлинеарности (sic!))
Рассмотрим свойства \(\hat \beta\):
1) Несмещённость при отсутствии мультиколлинеарности, при \(cov(X, \epsilon)=0\) и при \(E(\epsilon)=0\):
\(E(\hat \beta) = E(\beta + (X^TX)^{-1}X^T\epsilon)=\)
\(=E(\beta) + E((X^TX)^{-1}X^T)E(\epsilon)\)
Отсюда следует, что, если \(E(\epsilon)=0\), и регрессоры будут некоррелированы с отклонениями (для правомерности преобразования матожидания произведения в произведение матожиданий), то оценка \(\beta\) будет несмещённой (sic!)
2) Эффективность:
Рассмотрим ковариационную матрицу \(V(\hat \beta)\):
\(V(\hat \beta)=V(\beta+(X^TX)^{-1}X^T\epsilon)=\)
\(=V((X^TX)^{-1}X^T\epsilon)=\)
\(=(X^TX)^{-1}X^TV(\epsilon)X(X^TX)^{-1}\), где \(V(\epsilon)\) - ковариационная матрица отклонений, где по диагонали находятся дисперсия i-ого отклонения, а вне диагонали ковариация i-ого и j-ого отклонений. Если мы примем за \(b=((X^TX)^{-1}X^T+C)y\), где \(C\) - некоторая положительно определённая матрица, то, сравнив \(\hat \beta\) и \(b\), мы получим, что \(V(b) \geq V(\hat \beta)\) (см. док-во Магнус & Co, стр.70-71)
При этом, если мы предположим, что \(Var(\epsilon)=\sigma^2\) и \(cov(\epsilon_i,\epsilon_j)=0\) (то есть, остатки гомоскедастичны и не автокоррелированы), то ковариационная матрица вектора коэффициентов примет вид:
\(V(\hat \beta)=\sigma^2(X^TX)^{-1}\). Это свойство удобно тем, что показывает постоянность дисперсии оценки коэффициента и позволяет строить доверительные интервалы для оценок коэффициентов
3) Состоятельность:
Если \(\hat \beta = \beta+(X^TX)^{-1}X^T\epsilon=\)
\(=\beta+(\frac {1}{n} X^TX)^{-1}(\frac {1}{n} X^T\epsilon)\) и
а) \(\exists plim_{n \rightarrow \infty}(\frac {1}{n}X^TX)=A\), где \(A\) - положительно определённая матрица;
б) \(plim_{n \rightarrow \infty} \frac {1}{n}X^T\epsilon=E(x_{ti}\epsilon_i)=0\)
то по теореме Слуцкого, \(plim_{n \rightarrow \infty}\hat \beta=\beta\)
(док-во см. Магнус&Co, стр. 152-153)
Особенно следует обратить внимание на (б): если присутствует эндогенность (sic!), то есть, регрессоры коррелированы с остатками, \(E(x_{ti}\epsilon_i) \neq 0\), то есть, оценки коэффициентов будут несостоятельны
- Для R:
пакеты:
функции:
* lm() - линейная модель
* coeftest(модель) - коэффициенты модели и их тестирование, добавление vcov. = vcovHC позволяет считать робастные стандартные ошибки в случае гетероскедастичности
* confint() - доверительные интервалы для переменных модели (считается для случая гомоскедастичности)
- Стандартные предположения
Anmerkungen:
- 1) Отсутствует мультиколлинеарность, то есть, все регрессоры линейно независимы друг от друга.
2) Выборка случайна (наблюдения не зависят друг от друга, отсутствует безусловная гетероскедастичность).
3) Выполняются условия Гаусса-Маркова (см. далее).
- Условия Гаусса-Маркова
Anmerkungen:
- 1) Математическое ожидание отклонений прогнозных значений зависимой переменной от истинных равно нулю (\(E(\epsilon_i)=0\)) *
2) Значения отклонений не зависят от всех значений всех регрессоров (\(E(\epsilon|X)=0\), экзогенность), т.е., матрица Х является детерминированной, а не стохастической (\(cov(\epsilon_i,X)=0\)) *
3) Дисперсия остатков постоянна и равна \(\sigma^2\)(\(Var(\epsilon_i)=\sigma^2\), гомоскедастичность)
4) Отсутствует автокорреляция остатков(\(cov(\epsilon_i,\epsilon_j)=0\))
* - из (1) и (2) следует, что любую линейную модель можно рассматривать, как условное матожидание зависимой переменной при фиксированных значениях регрессоров: \(E(y_i|x_i) = x^T_i\beta\)
- Стандартные свойства
Anmerkungen:
- 1) Конечные малые выборки:
а) Нет требования к нормальности остатков:
* Линейность по \(y\)
* Несмещённость
* Наилучшие оценки среди класса линейных несмещённых
б) Остатки должны иметь нормальное распределение:
* Можно строить гипотезы о значимости коэффициента, а также доверительные интервалы для коэффициента на основе t-статистики: \(t=\frac {\hat \beta_j - \beta_j} {se(\hat \beta_j)} | X \sim t_{n-k}\)
* Для построения доверительного интервала для неизвестного \(\sigma^2\) можно использовать тот факт, что \(\frac {RSS}{\sigma^2}|X \sim \chi^2_{n-k}\)
* Можно использовать F-статистику для проверки гипотезы о нескольких линейных ограничениях: \(F=\frac {(RSS_R-RSS_{UR})/r}{RSS_{UR}/(n-k)} \sim F_{r,n-k}\)
2) Большие выборки (асимптотические):
* При \(n \rightarrow \infty\), \(\hat \beta \xrightarrow {p} \beta \)
* \(\frac {RSS}{n-k} \xrightarrow {p} \sigma^2 \)
* t-статистика при \(n \rightarrow \infty\) имеет нормальное распределение: \(t=\frac {\hat \beta_j - \beta_j} {se(\hat \beta_j)} | X \sim N(0,1)\)
* Можно использовать распределение \(\chi^2\) для проверки гипотезы о нескольких линейных ограничениях: \(\frac {(RSS_R-RSS_{UR})/r}{RSS_{UR}/(n-k)} \sim \chi^2_r\)
- Несоответствие стандартным предположениям
- Есть мультиколлинеарность
Anmerkungen:
- Возможно наличие строгой и нестрогой мультиколлинеарности:
от строгой мультиколлинеарности необходимо избавиться, иначе метод МНК не применим: \(\hat \beta\) рассчитать невозможно!
Для обнаружения мультиколлинеарности используют коэффициент вздутия дисперсии:
\(VIF_i=\frac{1}{1-R^2_i}\), где \(R^2_i\) - коэффициент корреляции i-ого регрессора на остальные регрессоры модели. Если значение коэффициента большое (обычно, больше 10), то можно заключить, что есть мультиколлинеарность
Также можно посмотреть значения выборочных коэффициентов корреляции:
\(sCorr(x,z)=\frac{\Sigma(x-\bar x)(z-\bar z)} {(n-1)\sqrt{sVar(x)sVar(z)}}\) для всех регрессоров, и, если они велики (больше 0.9), также можно предположить наличии мультиколлинеарности
- для R:
Пакеты: car
Функции:
vif {car} - считает коэффициенты вздутия дисперсии
- Избавиться
Anmerkungen:
- Возможны несколько вариантов:
1) Избавиться от одной или нескольких переменных, дающих мультиколлинеарность (при этом оценки становятся смещёнными, но дисперсия снижается)
2) Ввести штраф в МНК, тогда задача минимизации сведётся к \(RSS+Штраф \rightarrow{} min\).
Виды штрафов:
а) Ридж-регрессия (\(Штраф = \lambda (\hat \beta^2_1+...+\hat \beta^2_i)\))
б) LASSO-регрессия (\(Штраф = \lambda (|\hat \beta_1|+...+|\hat \beta_i|)\))
в) Метод эластичной сети (штраф из ридж-регрессии + штраф из LASSO-регрессии)
При этих методах нельзя строить доверительные интервалы для прогнозных значений зависимой переменной, но при этом коэффициенты при регрессорах получаются более адекватными
- для R:
пакеты:
функции:* glmnet (матрица регрессоров, зависимая переменная, alpha = 1 (для LASSO, 0 для ридж-регрессии), lambda = любая последовательность чисел [seq(n, k, шаг) или с(), от большего к меньшему (иначе glmnet не будет работать!)])* cv.glmnet (матрица регрессоров, зависимая переменная, alpha = {1, 0}), аналог glmnet, но с автоматическим подбором оптимальных лямбд методом cross validation.* coef(cv.glmnet, s="lambda.1se") - для просмотра коэффициентов при регрессорах, полученных в LASSO модели выше, где лямбда выбирается так, чтобы коэффициенты были наиболее близкими к нулю (параметр s)
- Оставить
Anmerkungen:
- Нестрогая мультиколлинеарность не очень страшна: оценки остаются по-прежнему несмещёнными и наиболее эффективными, на доверительные интервалы для прогнозируемых значений зависимой переменной мк не сказывается
- Гетероскедастичность
Anmerkungen:
- Последствия:
Непосредственно \(\hat \beta\) можно использовать, гетероскедастичность на их свойства не влияет. Но при этом нельзя построить доверительные интервалы для коэффициентов, нельзя проверять гипотезы из-за несостоятельности стандартных ошибок \(se(\hat \beta_j)\)
Методика работы с гетероскедастичностью:
КАК ТОЛЬКО возникают основания для подозрения наличия гетероскедастичности, СРАЗУ следует использовать робастные стандартные ошибки.
НЕВЕРНО сначала тестировать на гетероскедастичность, а потом, по результатам тестирования, использовать робастные ошибки
Обнаружение гетероскедастичности:
1) графический метод: по горизонтали откладывается регрессор, подозреваемый на участие в гетероскедастичности, по вертикали - квадраты или модули отклонений. По внешнему виду графиков можно определить наличие зависимости (гетероскедастичности).
2) тест Уайлда:
* не требует нормальность отклонений
* асимптотический (для больших выборок)
Выполняется так: оценивается первоначальная МНК-модель, после чего строится зависимость оценённых в первой модели отклонений на регрессоры, подозреваемые в гетероскедастичности (если нет подозреваемых, то строится на все регрессоры + их квадраты + их попарные произведения). После рассчитывается \(R^2_{aux}\) - \(R^2\) вспомогательной регрессии и умножается на \(n\). Тогда при верной гипотезе H0: гетероскедастичность отстуствует (\(Var(\epsilon_i | X) = \sigma^2\)), статистика \(LM = n*R^2_{aux} \sim \chi^2_{m-1}\), где \(m\) - число регрессоров во вспомогательной регрессии. Следовательно, если \(\chi^2_{m-1} < \chi^2_{cr}\), то H0 принимается, если нет - отвергается
3) тест Голдфельда-Квандта:
* предполагается наличие регрессора, от которого монотонно зависит условная дисперсия отклонений
* предполагается нормальность отклонений
* можно использовать на малых выборках
Методика:
Наблюдения сортируются по предполагаемому убыванию условной дисперсии (по убыванию регрессора, подозреваемого во влиянии на условную дисперсию отклонений). Далее исключается некоторая часть средних наблюдений (порядка 20%, но точное значение не принципиально, делается для подчёркивания разницы в дисперсии). После этого оцениваем исходную модель по первой части наблюдений и, отдельно, по второй. Вычисляем \(RSS_{1,2}\). После вычисляем F-статистику: \(F = \frac {RSS_1/(n_1-k)} {RSS_2/(n_2 - k)}\). Если выполнена H0 (условная гомоскедастичность), то \(F \sim F_{n_1-k, n_2-k}\), и, если \(F < F_{cr}\), то H0 не отвергается, иначе - отклоняется.Следует отметить, что сортировка может производиться по регрессору, не включённому в модель.
- для R:
пакеты:
lmtest {gqtest,
функции:
* bptest(модель) - тест Бреуша-Паганна на гетероскедастичность (оценивается вспомогательная регрессия, помимо основной, а именно зависимость квадратов остатков от тех же регрессоров, что используются в основной модели). H0: условная гомоскедастичность.
* bptest(модель, data = данные, varformula = ~ формула) - для проведения теста Уайта (то есть, включающего не только исходные регрессоры, но и их квадраты и попарные произведения во вспомогательную регрессию, с помощью "формулы")
* gqtest(модель, order.by = ~переменная, data = данные, fraction = доля) - тест Гольдфелда-Квандта, где переменная - тот регрессор, по которому оценивается наличие гетероскедастичности (наше предположение), доля - часть наблюдений, которые выкидываются из середины. H0: условная гомоскедастичность.
*
- Условная
Anmerkungen:
- При заданных регрессорах, разброс (дисперсия) отклонений прогнозных значений зависимой переменной от истинных непостоянен
\(Var(\epsilon_i|X)=E(\epsilon^2_i|X) \neq const\)
Может возникать и при одинаково распределённых независимых \(\epsilon_i\)
Т.о, нарушаются стандартные свойства МНК-оценок.Обычно возникает тогда, когда у данных есть "размер" и в выборку могут попасть данные разного размера (например, выручка для большой компании и для маленькой)Последствия:* Оценки коэффициентов становятся не самыми эффективными в классе линейных несмещённых оценок.* Нельзя использовать t-статистику для проверки значимости коэффициентов и построения для них доверительных интервалов ни для конечных, ни для асимптотических выборок.* Нельзя использовать свойство \(\frac {RSS}{\sigma^2}|X \sim \chi^2_{n-k}\) для оценки неизвестного \(\sigma^2\)* Нельзя использовать ни F-статистику для конечных выборок, ни \(\chi^2\)-распределение для асимптотических выборок для проверки гипотезы о нескольких линейных ограничениях
- Безусловная
Anmerkungen:
- Разброс (дисперсия) отклонений прогнозных значений зависимой переменной от истинных непостоянен
\(Var(\epsilon_i)=E(\epsilon^2_i) \neq const\)
Возникает только в том случае, если \(\epsilon_i\) не является вектором независимых одинаково распределённых величин (то есть, выборка не является случайной)
- Робастные стандартные ошибки
Anmerkungen:
- Помогают при достаточно больших \(n\)!
Оценки остаются неэффективными!
Для преодоления гетероскедастичности следует использовать \(se_{HC}(\hat \beta_j)\), т.е., робастные стандартные отклонения, получаемые из \(Var(\hat \beta_j)=(X^TX)^{-1}X^T\hat \Omega X (X^TX)^{-1}\)В случае конечных выборок с помощью отклонений, устойчивых к гетероскедастичности, от проблем избавиться не удаётся, но в случае с асимптотическими выборками они позволяют строить доверительные интервалы и проверять гипотезы.
- Для R:
пакеты:
функции:
*** vcovHC(модель) - рассчитывает коэффициенты модели с учётом робастных отклонений.
*** qchisq(1-\(\alpha\)) - для определения критического значения \(\chi^2_{cr}\) при заданном уровне значимости \(\alpha\)
*** qf(1-\(\alpha\), df1=df1, df2=df2), где \(F_{df1,df2}\) - критическая F-статистика
- В среднем, линия регрессии не истинна
Anmerkungen:
- \(E(\epsilon_i) = const \neq 0\)
В этом случае следует центрировать вектор ошибок, вынеся отклонение как константу
- Автокорреляция остатков
Anmerkungen:
- Нарушение предпосылки об отсутствии корреляции между \(\epsilon_i и \epsilon_j\), то есть:
\(cov(\epsilon_i, \epsilon_j) \ne 0\)
Автокорреляция порядка p приводит к тому, что \(\lim_{k \to \infty} cov(\epsilon_i, \epsilon_{n-k}) = 0\), то есть, коррелируют только близлежащие события, тогда как чем дальше отстоят наблюдения, тем меньше корреляция между ними
Автокорреляция приводит к нарушению следующих предпосылок:
1) о независимости наблюдений (\(x_i, y_i\))
2) как правило, во временных рядах нарушается предпосылка о строгой экзогенности регрессоров (\(E(\epsilon_t|X) \ne 0\))
Приводит к несостоятельности стандартных ошибок, поэтому невозможно строить доверительные интервалы и проверять гипотезы
- Эндогенность
- Метод главных компонент
Anmerkungen:
- Центрируем регрессоры (вычитаем средние значения из регрессоров) и переходим к новым взвешенным переменным (главным компонентам \(pc_i\)), обладающим следующими свойствами:
1) Сумма квадратов весов равна 1
2) Новые переменные являются максимально изменчивыми (имеют наибольшую выборочную дисперисю)
3) Некоррелированы между собой (\(sCorr(pc_i,pc_j)=0\))
4) \(\bar {pc_i} = 0\) (поскольку регрессоры центрированы)
5) \(sVar(x_1)+...+sVar(x_i)=sVar(pc_1)+...+\) \(+sVar(pc_i)\)
- Определение главных компонент через линейную алгебру:
Если \(\bar x = 0\), то \(pc_i=X*v_i\) и \({|pc_i|}^2=\lambda_i\), где \(\lambda_i\) - собственные числа, \(v_i\) - собственные вектора матрицы \(X^TX\)
Главные компоненты позволяют, главным образом, визуализировать большие наборы данных, во-вторых, оставить наиболее информативные переменные, в-третьих, увидеть особенные наблюдения, в-четвёртых, перейти к некоррелированным переменным (отсутствие мультиколлинеарности)
- Трудности, связанные с переходом к главным компонентам:
1) Переменные имеют разные единицы измерения, поэтому их разбросы несопоставимы
2) Возникает при построении регрессии на главные компоненты: выбор самых изменчивых переменных не означает выбор самых информативных (налучшим образом объясняющих зависимую переменную) переменных. Кроме того, определить смысл главных компонент не всегда возможно
Для борьбы с первой проблемой можно нормировать переменные: \(x_i=\frac{a_i-\bar a_i} {se(a_i)}\)
- для R:
пакеты:
функции: