Diagnóstico del modelo

regresion diagnostico

¿Qué tan viable es el uso de los modelos?

Authors

Affiliations

Eduardo Selim M. M.

Carlos A. Ar.

Published

May 20, 2021

DOI

Raw-residual: idealmente, éste aproxima a (no observable). Refleja la cantidad de variación que está aún presente aún en el conocimiento de las variables explicativas.
Si el modelo se ajusta adecuadamente, los residuales deben ser structure-less.
Si es “grande” no hay un buen ajuste de modelo
Para todo
- Se puede ver esto de forma matricial
matriz sombrero.
Leverage grande Varianza baja.
A se le conoce como leverage para la observación .
Como es desconocido, se puede estimar a partir del MSE

Residuales estandarizados y studentizados

Los raw-residuals no son comparables entre sí y no es fácil interpretarlos directamente.
Residuales estandarizados
- Si el modelo de regresión es correcto, los tienen aproximadamente la misma varianza (esto los hace comparables) y aproximadamente tienen distribución normal/gaussiana estándar.
Residuales studendizados

donde es el MSE del modelo de regresión con la i-ésima observación excluida
El uso de quita el efecto de la i-ésima observación; de esta forma la i-ésima observación afecta al numerador de no su denominador.

Identificación de outliers

es extremo si
¿Qué hacer con outliers?
- 1. Borrarlo
- 1. Conservarlo pero comentarlo
- 1. Hacer el modelo con y sin el outlier

Detección de relaciones no-lineales omitidas

Si el modelo de regresión se especificó adecuadamente, los residuales no deben mostrar patrones regulares.
Se puede graficar (vertical) v.s. algún predictor
- Si hay patrón sistemático es indicacción de que se requiere usar información adicional para mejorar el modelo.
Ejemplo

En un SLR la gráfica v.s. muestra forma de sugiere que los residuales son cuadráticos en . Es decir

Puntos de influencia

Definición. Se dice que una observación muestral es un punto de influencia si su exclusión del análisis de regresión lleva a conclusiones diferentes a aquellas a las que se llegó en su presencia.
Se estudiarán 2 métodos para evaluar la influencia de cada observación sobre los resultados del modelo global.
- 1. Leverage
- 1. Distancia de Cook
El vector de LSE’s es

Leverage

: Leverage de la i-ésima observación. Representa el “leverage” (pero ó ponderación) que el i-ésimo valor respuesta ejerce sobre su propio valor ajustado.
- Mientras más grande es , mayor es la influencia que ejerce sobre .
- . Mientras más grande sea , m{as pequeño será el valor de y tenderá a ser
- Si , estará forzado a ser
se obtiene de i.e. sólo usa a las variables explicativas, no a las variables respuesta.
- El leverage es una medida de la influencia de una observación sobre el modelo solamente en términos de sus variables explicativas.
Se puede demostrar que
Regla de dedo de Frees

Una observación tiene un leverage alto si
Tanto para SLR y MLR, el leverage es una medida de lejanía (remoteness) de una observación de las observaciones restantes, en el espacio de las variables explicativas.
El leverage es un reflejo de la influencia de la observación, pues proporciona una “posible razón” para que una observación sea de influencia: ésta involucra variables anómalas de las variables explicativas (está “lejana” del resto de las variables explicativas).

Importante

Una observación con leverage alto no necesariamente es de influencia.

“Un punto de leverage alto puee o no ser de influencia”

Los puntos A y B tienen leverage alto pues están lejos del resto de las observaciones
Pero sólo el punto A es de influencia pues las rectas de regresión con el punto A y sin el punto A, serán muy diferentes.

Distancia de Cook

Una sugerencia para que un punto sea de influencia es que no sólo sea outstanding en los valores de si no también en los de .

La distancia de cook es una medida que combina ambas dimensiones.

Una manera directa de evaluar la influencia de las observaciones individuales es estudiar los cambios en la varibale respuesta ajustada si se elimina dicha observación.

Supóngase que se elimina la i-ésima observación y se ajusta un modelo de regresión con las observaciones restantes.

Mientras más grande sea , más influencial será la observación

Distancia de cook

Donde es el MSE calculado con el data-set completo

(que sirve para probar valores grandes o pequeños de )
Frees sugiere que significa que la observación es de influencia.
La definición de la distancia de cook requiere que se ajuste una regresión en data-sets:
- 1 en el data-set completo (para obtener )
- para cada uno de lo data-sets que excluye a la observación , para calcular los .
Hay una fórmula algebraicamente equivalente pero computacionalmente más eficiente.

solo requiere realizar una regresión sobre todos los datos.
En esta expresión es evidente el impacto de la respuesta (a través de ) y de las covariables (a través de ).
Para que la distancia de Cook sea grande tiene que ocurrir tanto que sea grande, así como , i.e. la observación es outstanding con respecto a los valores de y los valores de .