Nós poderíamos encontrar uma regressão na qual os quadrados médios dos resíduos (variância dos erros) representam a maior parte da variabilidade da regressão, invalidando a representatividade da regressão como um processo que poderia ter gerado aquelas variáveis explicadas. Assim, a parte que se constitui como uma reta (bx) só explicou alguma parte da variável explicada “por coincidência”, isto é, sem significância estatística
o teste F é um teste estatístico que visa comparar variâncias e se a diferença entre ambas é estatisticamente significante. Analiticamente, sob a hipótese nula, o quociente entre dois quadrados médios, isso é, entre duas variâncias, segue uma distribuição F.
Portanto, o teste Faplicado ao estudo de regressão é equivalente a um teste de hipóteses conjunto de que todos, ou parte de todos,os coeficientes têm valor igual a zero.
Olhe só isso: o teste Fé um teste de comparação de variâncias , porém o mesmo pode ser utilizado para fazer testes sobre médias.
Hipótese nula: As variâncias são iguais
Estimador BLUE - É aquele que possui a menor a menor variância dentre todos os estimadores lineares não viesados
Atenção! O número de variáveis dummy em uma reta será sempre (N-1), sendo N igual ao número de características em análise. Por exemplo, no caso do modelo acima descrito, há duas características (homem ou mulher), portanto o modelo deverá ter no máximo (N-2 = 1) binárias.
Caso esta condição não seja respeitada, ocorrerá um problema econométrico, chamado de multicolinearidade, conforme será discutido em aulas posteriores.
(2ª hipótese)Se os erros de um modelo não forem normalmente distribuídos: - Estimador ainda é BLUE; e -Testes de hipótese sobre o modelo ficam comprometidos
(4ª hipótese) Sob Heterocedasticidade, o estimador MQO deixa de ser BLUE. Entretanto, isso não causa viés no mesmo. Porém, Testes de hipótese sobre o modelo ficam comprometidos
teste de White. Este teste visa entender se os erros de uma determinada regressão dependem do valor de suas variáveis explicativas, isso é, se um fenômeno tal como descrito no gráfico que eu te mostrei lá em cima está ocorrendo. Caso o valor das variáveis explicativas afetarem de maneira significativa os erros da regressão, há um indício de heterocedasticidade.
teste de Goldfeld Quandt. A idéia é avaliar se a variância é a mesma ao longo da amostra, independentemente do valor da observação. Isso é averiguar se há heterocedasticidade.
Correção: Mínimos Quadrados Ponderados: Retira-se a heterocedasticidade dividindo toda asérie por determinado valor
(6ª hpótese) Quando há multicolinearidade em um modelo, suas estimativas ainda assim são BLUE. Mas, a variância dos estimadores será muito maior quando há multicolinearidade, então, por conseqüência, os testes de hipóteses serão afetados.
Annotations:
Ou seja, não se preocupem com suas previsões a partir de um modelo com
multicolinearidade, as estimativas MQO ainda são eficientes e consistentes!
(VERIFICAR)
As variâncias estimadas serão viesadas (em
geral, subestimadas).
Matriz de vairância e covariâncias
Sob multicolinearidade, o modelo estimado ainda é BLUE, porém as variâncias dos parâmetros ficam muito aumentadas, afetando sua significância e podendo afetar, até mesmo, o sinal dos coeficientes.
Multicolinearidade é sinônimo de sensibilidade dos parâmetros a novas variáveis e observações.
(5ª hipótese) - Autocorrelação -> estimador NÃO BLUE, SEM VIÉS, mas testes de hipóstes comprometidos. Igual à 4ª HIPO, porém se o modelo estimado tiver uma versão defasada da variável dependente, existência de autocorrelação torna o estimador viesado!
Testes
Testes: Durbin-Watson (DW):
H0: Não tem auto
Teste H de Drubin: caso haja variálve dependente defasada como explicativa
Teste Breusch-Godfrey
Regressão do resíduo contra sua versão defasada, analisada pelo Teste F ou R²
Correção: Y - Rho*Y_1 , aí faz MQO
Resumo
Autocorrelação
Não são mais eficientes (BLUE)
Lineares
Não viesados
Consistentes
As variâncias estimadas serão viesadas (em geral, subestimadas).
Heterocedasticidade
Não são mais eficientes (BLUE)
os resíduos são os erros de ajuste após a estimação da reta original , ou seja, na regressão feita com base na amostra e não mais na população.
Testes de hipótese
A distribuição t de Student é utilizada para os casos emque a variância populacional não é conhecida
O p-valor é o menor nível de significância ao qual a hipótese nula pode ser rejeitada.
Regressão múlitpla
1. Critérios de escolha entre modelos
O R² nunca diminui ao acrescentarmos variáveis explicativas
Uma forma de resolver tal problema é a partir do uso da estatística doR² ajustado. Esta leva em conta os graus de liberdade dos quadrados explicados edos quadrados dos resíduos da seguinte forma
2. Consistência de um Estimador
Um estimador consistente é aquele em que, à medida que amostra, ele converge para seu valor “verdadeiro”. Ou seja, o estimador é muito confiável em grandes amostras, já que ele tende a apontar para o estimador que seria obtido caso a regressão fosse feita com a população
O TLC nos ensina que uma variável padronizada (variável que tem seu valor diminuído de sua média e divido pelo seu desvio padrão) tem uma distribuição que tende para a distribuição normal quando o tamanho da amostra cresce.
Para que as estatísticas t e F sejam válidas assintoticamente é necessário que os erros sejam normalmente distribuídos.