¿Qué tan viable es el uso de los modelos?
Raw-residual: ei=yi−ˆyi idealmente, éste aproxima a ϵi (no observable). Refleja la cantidad de variación que está aún presente aún en el conocimiento de las variables explicativas.
Si el modelo se ajusta adecuadamente, los residuales deben ser structure-less.
Si |ei| es “grande” no hay un buen ajuste de modelo
|ei| grande →Mal ajuste del modelo¿Qué tan grandes?
Para todo i∈{1,...,n}
Var(ϵi)=σ2Var(ei)=σ2(1−hii)
Se puede ver esto de forma matricial
e=y−ˆy=y−Xˆβ=y−[X(XTX)−1XT]⏟Hy=y−Hy=(I−H)⏟simétrica e idempotentey
H=X(XTX)−1XT→ matriz sombrero.
Var(e)=(I−H)σ2I(I−H)T=σ2(I−H)(I−H)T
Var(ei)=σ2(1−hii⏟leverage)→ Leverage grande ⇒ Varianza baja.
A hii se le conoce como leverage para la observación i.
Como σ2 es desconocido, se puede estimar a partir del MSE σ2
^Var(ei)=S2(1−hii),i=1,2,...,n
Los raw-residuals no son comparables entre sí y no es fácil interpretarlos directamente.
Residuales estandarizados
esti:=ei√S2(1−hii)
Si el modelo de regresión es correcto, los esti´s tienen aproximadamente la misma varianza (esto los hace comparables) y aproximadamente tienen distribución normal/gaussiana estándar.
esti˙∽N(0,1)
Residuales studendizados
estudi:=ei√S2(i)(1−hii)
donde S2(i) es el MSE del modelo de regresión con la i-ésima observación excluida
estudi∽tn−(k+1) (exacto)
El uso de S2(i) quita el efecto de la i-ésima observación; de esta forma la i-ésima observación afecta al numerador de estudi no su denominador.
ˆyi es extremo si
|esti|={≥2, Frees≥3, James estad
¿Qué hacer con outliers?
Si el modelo de regresión se especificó adecuadamente, los residuales no deben mostrar patrones regulares.
Se puede graficar e (vertical) v.s. algún predictor xj
Ejemplo
En un SLR y=β0+β1x+ϵ la gráfica e v.s. x muestra forma de U sugiere que los residuales son cuadráticos en x. Es decir
y−β0−β1≈e≈γ0+γ1x+γ2x2⏟patrón cuadrático⇒y≈(β0+γ0)+(β1+γ1)x+γ2x2que es un modelo de regresión cuadrático
Definición. Se dice que una observación muestral es un punto de influencia si su exclusión del análisis de regresión lleva a conclusiones diferentes a aquellas a las que se llegó en su presencia.
Se estudiarán 2 métodos para evaluar la influencia de cada observación sobre los resultados del modelo global.
El vector de LSE’s es ˆβ=(XTX)−1XY
ˆY=Xˆβ=X[(XTX)−1XTY]=HYH=X(XTX)−1XT→ matríz sombreroˆY=HY "Se multiplica a Y por H para llegar a ˆY

hii : Leverage de la i-ésima observación. Representa el “leverage” (pero ó ponderación) que el i-ésimo valor respuesta ejerce sobre su propio valor ajustado.
Mientras más grande es hii, mayor es la influencia que yi ejerce sobre ˆyi.
Var(ei)=σ2(1−hii). Mientras más grande sea hii, m{as pequeño será el valor de Var(ei) y ˆyi tenderá a ser yi
Si hii=1, ˆyi estará forzado a ser yi
hii se obtiene de H=X(XTX)−1XT i.e. sólo usa a las variables explicativas, no a las variables respuesta.
Se puede demostrar que
hii∈[1n,1]n∑i=1hii=k+1, k es el número de variables explicativas.El laverage promedio es ˉh=k+1n
Regla de dedo de Frees
Una observación tiene un leverage alto si
hii>3ˉh=3(k+1)nLaverage para SLR : y=β0+β1x+ϵhii=1n+(xi−ˉx)2Sxx"miestras más lejos esté xi de ˉx, más grande será el leverage hii"
Tanto para SLR y MLR, el leverage es una medida de lejanía (remoteness) de una observación de las observaciones restantes, en el espacio de las variables explicativas.
El leverage es un reflejo de la influencia de la observación, pues proporciona una “posible razón” para que una observación sea de influencia: ésta involucra variables anómalas de las variables explicativas (está “lejana” del resto de las variables explicativas).
Una observación con leverage alto no necesariamente es de influencia.
“Un punto de leverage alto puee o no ser de influencia”

Los puntos A y B tienen leverage alto pues están lejos del resto de las observaciones
Pero sólo el punto A es de influencia pues las rectas de regresión con el punto A y sin el punto A, serán muy diferentes.
Una sugerencia para que un punto sea de influencia es que no sólo sea outstanding en los valores de x si no también en los de y.
La distancia de cook es una medida que combina ambas dimensiones.
Una manera directa de evaluar la influencia de las observaciones individuales es estudiar los cambios en la varibale respuesta ajustada si se elimina dicha observación.
Supóngase que se elimina la i-ésima observación y se ajusta un modelo de regresión con las n−1 observaciones restantes.
ˆyj(i): valor ajustado de ˆy calculado en ausencia de la observación i
Di=∑nj=1(ˆyj−ˆyj(i))2(k+1)S2
Donde S2 es el MSE calculado con el data-set completo
Di˙∽F (que sirve para probar valores grandes o pequeños de Di)
Frees sugiere que Di>1n significa que la observación i es de influencia.
La definición de la distancia de cook requiere que se ajuste una regresión en (n+1) data-sets:
1 en el data-set completo (para obtener S2)
n para cada uno de lo data-sets que excluye a la observación i, para calcular los ˆy′sj(i).
Hay una fórmula algebraicamente equivalente pero computacionalmente más eficiente.
Di=1k+1(esti)2hii1−hii
En esta expresión es evidente el impacto de la respuesta yi (a través de esti) y de las covariables x (a través de hii).
Para que la distancia de Cook sea grande tiene que ocurrir tanto que esti sea grande, así como hii, i.e. la observación es outstanding con respecto a los valores de x y los valores de y.