Regresión lineal simple

regresion

Repaso de regresión lineal con una variable explicativa.

Authors

Affiliations

Eduardo Selim M. M.

Carlos A. Ar.

Published

May 25, 2021

DOI

Modelos lineales

Es una técnica supervisada. La respuesta será mientras que las variables explicativas, predictivas o covariables se denotarán por . La familia de los modelos lineales es muy versátil.

Regresión clásica

Hay una relación lineal entre y

Modelos lineales generalizados

Donde es una función.

Ejemplos por excelencia de este tipo de rtegresión:

Regresión logística.
Regresión Poisson.

Modelos generalizados aditivos (GAM’s)

En general nos interesan al menos 5 cosas (independientemente del modelo lineal a trabajar).

¿Cómo se estiman las ?
¿Algunas propiedades que tienen los estimadores ?
- Insesgado
- Varianza
- Intervalo de confianza
Predicción
Bondad de ajuste, es decir ¿?
¿Cuáles de entre son importantes para determinar la relación con ? Selección de variables o feature engineering.

Regresión Lineal Simple

Suposiciones del modelo

El modelo SLR (Simple Linear Regression) se basa en algunas suposiciones:

son realizaciones de variables aleatorias. Los valores son no-aleatorios.

Las cantidades representan errores aleatorios que son independientes entre sí y además:

Conocida como Hipótesis de homocedasticidad.

Bajo estos supuestos se tiene que

Cosas que ya deberíamos saber:

Estimación de y por mínimos cuadrados.

Se seleccionan de tal forma que se minimice (lo cual es un problema clásico de optimización).

donde

Una propiedad interesante de estos estimadores es la siguiente

donde

Este resultado “justifica” el caso de la correlación como medida de asociación lineal y el dibujo que nos encanta ❤️

Ya con estos y en la mano, podemos definir como el ajustado y también los residuales como

Importante

En los cursos se demuestra que

Para hacer inferencia, tenemos que hacer algunas suposiciones, la más común es y además que son i.i.d’s.

Esta suposición nos lleva a que

que es algo fuerte de suponer.

Tenemos que “evaluar” qué tan bueno es el modelo, es decir, si incorporar a la variable para explicar es valioso. Entonces

Una descomposición popular es:

TSS: Total SS

Variación de la respuesta con respecto a su media muestral
Cantidad de variabilidad inherte en las respuestas antes de realizar la regresión.

Residual SS ó Error SS

Variación de la respuesta con respecto a la rexta de regresión
- Mide la bondad de ajuste de LSR. Mientras más bajo, mejor 😄
- Mide la cantidad de variabilidad de la respuesta que no es explicada aún despu+es de introducir

RegSS: Regression SS

- Variación explicada por el modelo SLR i.e. el conocimiento de v.s. el deconocimiento de .
- Mide qué tan efectivo es el modelo SLR en explicar la variación en . (Incorporar v.s. no incorporar ).
Trivialmente
Como permanece fijo, mientras más grande sea , más pequeño será

Lo anterior motiva la definición de a.k.a. coeficiente de determinación

Se requiere que sea lo más cercano posible a 1.
Mientras más grande sea el valor de , más efectiva será la recta de regresión en reducir la varianza de .

En SLR hay relaciones entre y

Como no cambia, entonces si es grande, sucede que es grande y por tanto fue buena idea introducir .

También se puede demostrar que en SLR

Otra cantidad popular en el análisis de regresión es

Además es un estimador insesgado de , es decir

Para probar formalmente si es suficientemente grande, se lleva a cabo

La prueba F

Estadística de prueba

Sea tal que

Regla de decisión

Si entonces se rechaza
O bien a través del
- Mientras más pequeño sea el , se tendrá evidencia más fuerte para rechazar

Una relación “bonita” entre y (en SLR)

Propiedades de y

Si , entonces y tienen también distribución Gaussiana:
Las desviaciones estándar estimadas de y se denotan como y , respectivamente y se conocen como errores estándar.
- Son medidas de la confiabilidad ó precaución de los LSE´s
- De donde
  1. es creciente.
  2. es creciente.
  3. es decreciente.
  4. es decreciente.
    
    Recordemos que
- Lo anterior graficamente se puede ver así
- Los errores estándar serán pequeños si las observaciones muestran gran tendencia a estar cerca de la recta de regresión y si los valores observados de la variable explicativa (i.e. ) están más “dispersos” a lo largo del eje (es decir, grande).
- Puede suceder que exista más dispersión pero eso no es garantía de un “buen ajuste”.

Intervalos de confianza para

A partir de los errores estándar ya definidos, se puede demostrar que los intervalos del de confianza para es:

En general se pueden plantear hipótesis de la siguiente manera:

v.s.
v.s.
v.s.

Donde especificado por el usuario.

Para este tipo de contraste usábamos la prueba .