Regresión lineal simple

regresion

Repaso de regresión lineal con una variable explicativa.

Eduardo Selim M. M. , Carlos A. Ar.
05-25-2021

Modelos lineales

Es una técnica supervisada. La respuesta será \(y\) mientras que las variables explicativas, predictivas o covariables se denotarán por \(x_1, x_2, ..., x_p\). La familia de los modelos lineales es muy versátil.

Regresión clásica

\[ y = \beta_0 + \beta_1 x_1 + ... + \beta_p x_p \]

Hay una relación lineal entre \(y\) y \(x_1, x_2, ..., x_p\)

Modelos lineales generalizados

\[ g(y) = \beta_0 + \beta_1 x_1 + ... + \beta_p x_p \]

Donde \(g\) es una función.

Ejemplos por excelencia de este tipo de rtegresión:

Modelos generalizados aditivos (GAM’s)

\[ y = \beta_0 + \beta_1 g(x_1) +\beta_2 g(x_2) + ... + \beta_p g(x_p) \]

En general nos interesan al menos 5 cosas (independientemente del modelo lineal a trabajar).

  1. ¿Cómo se estiman las \(\beta ' ^s\)?

  2. ¿Algunas propiedades que tienen los estimadores \(\hat{\beta}'^s\)?

    • Insesgado

    • Varianza

    • Intervalo de confianza

  3. Predicción \(\hat{y}_i\)

  4. Bondad de ajuste, es decir ¿\(y_i \approx \hat{y_i}\)?

  5. ¿Cuáles de entre \(x_1, ..., x_p\) son importantes para determinar la relación con \(y\)? Selección de variables o feature engineering.

Regresión Lineal Simple

Suposiciones del modelo

El modelo SLR (Simple Linear Regression) se basa en algunas suposiciones:

\[ y_i = \beta_0 + \beta_1x_i + \epsilon_i,\\ i = 1,...,n\text{ es decir, el número de observaciones es }n \]

\(y_i'^s\) son realizaciones de variables aleatorias. Los valores \(x_i\) son no-aleatorios.

Las cantidades \(\epsilon_1, ..., \epsilon_n\) representan errores aleatorios que son independientes entre sí y además:

Bajo estos supuestos se tiene que

Cosas que ya deberíamos saber:

Estimación de \(\beta_0\) y \(\beta_1\) por mínimos cuadrados.

\[ SS(\beta_0, \beta_1) := \sum_{i=1}^n[\underbrace{y_i}_{\text{observado}} - \underbrace{(\beta_0 + \beta_1x_i)}_{\text{Supuesto}}]^2 \]

\[ \hat{\beta}_1 = \frac{\displaystyle \sum_{i=1}^n(x_i - \bar{x})(y_i - \bar{y})}{\displaystyle \sum_{i=1}^n(x_i - \bar{x})^2} = \frac{S_{xy}}{S_{xx}} \]

\[ \hat{\beta}_0 = \bar{y} - \hat{\beta_1}\bar{x} \]

donde

\[ S_{xy} = \displaystyle \sum_{i=1}^n(x_i - \bar{x})(y_i - \bar{y}) = \displaystyle \sum_{i=1}^n x_iy_i - n\bar{x}\bar{y}\\ S_{xx} = \displaystyle \sum_{i=1}^n(x_i - \bar{x})^2 = \displaystyle \sum_{i=1}^n x_i^2 - n\bar{x}^2 \]

Una propiedad interesante de estos estimadores es la siguiente

\[ \hat{\beta}_1 = r_{xy}\frac{S_y}{S_x} \]

donde

\[ S_y := \displaystyle \sqrt{\frac{1}{n-1} \sum_{i=1}^{n}(y_i-\bar{y})^2 }\\ S_x := \displaystyle \sqrt{\frac{1}{n-1} \sum_{i=1}^{n}(x_i-\bar{x})^2 }\\ \text{Coeficiente de correlación muestral entre }x \text{ y } y:\\ r_{xy} = \frac{S_{xy}}{\sqrt{S_{xx} S_{yy}}} \]

Este resultado “justifica” el caso de la correlación como medida de asociación lineal y el dibujo que nos encanta ❤️

Ya con estos \(\hat{\beta}_0\) y \(\hat{\beta}_1\) en la mano, podemos definir \(\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i\) como el ajustado y también los residuales como

\[ \hat{\epsilon}_i = e_i := y_i - \hat{y}_i \]

Importante

\[ \text{Residuales} \neq \text{Errores aleatorio}\\ \underbrace{e_i}_{\text{Calculables, reales}} \space \space \space \space \space \space\space\space\space \underbrace{\epsilon_i}_{\text{Variables aleatorias}\\\text{no observables}} \]

En los cursos se demuestra que

Para hacer inferencia, tenemos que hacer algunas suposiciones, la más común es \(\epsilon_i \sim N(0, \sigma^2)\) y además que \(\epsilon_1, \epsilon_2, ..., \epsilon_n\) son i.i.d’s.

Esta suposición nos lleva a que

\[ y_i \sim N(\beta_0 + \beta_1x_i, \sigma^2) \]que es algo fuerte de suponer.

Tenemos que “evaluar” qué tan bueno es el modelo, es decir, si incorporar a la variable \(x\) para explicar \(y\) es valioso. Entonces

\[ \underbrace{\displaystyle \sum_{i=1}^n (y_i - \hat{y}_i)^2}_{\text{Modelo de}\\ \text{regresión}} < \underbrace{\displaystyle \sum_{i=1}^n (y_i - \bar{y}_i)^2}_{\text{Modelo naive}\\ \text{iid}} \]

Una descomposición popular es:

\[ y_i - \bar{y} = y_i - \hat{y}_i + \hat{y}_i - \bar{y} \\ \]

\[ \Rightarrow \text{ (Se demuestra)} \\ \]

\[ \underbrace{ \displaystyle \sum_{i=1}^n (y_i - \bar{y})^2}_{\text{TSS}} = \underbrace{ \displaystyle \sum_{i=1}^n (y_i - \hat{y}_i)^2}_{\text{RSS ó}\\ \text{Error S}} + \underbrace{ \displaystyle \sum_{i=1}^n (\hat{y}_i - \bar{y})^2}_{\text{Reg SS}} \]

TSS: Total SS

Residual SS ó Error SS

\[ RSS = \displaystyle \sum_{i=1}^n (y_i - \hat{y})^2 \]

RegSS: Regression SS

En SLR hay relaciones entre \(\hat{\beta}_1\) y \(RSS\)

Como \(S_{xx}\) no cambia, entonces si \(\hat{\beta}_1\) es grande, sucede que \(RegSS\) es grande y por tanto fue buena idea introducir \(x\).

También se puede demostrar que en SLR

\[ R^2 = \underbrace{r_{xy}^2}_{\text{Cuadrado del}\\ \text{coeficiente de}\\ \text{Correlación} \\ \text{muestral}} = \bigg(\frac{S_{xx}}{\sqrt{S_{xx}\cdot S_{yy}}}\bigg)^2 \]

Otra cantidad popular en el análisis de regresión es

\[ \boxed{MSE := \frac{RSS}{n-2} = \frac{\displaystyle \sum_{i=1}^ne_i^2}{n-2} =: S^2} \]

Además \(S^2\) es un estimador insesgado de \(\sigma^2\), es decir \(\mathbb{E}(S^2) = \sigma^2\)

Para probar formalmente si \(RegSS = \displaystyle \sum_{i = 1} ^n ( \hat{y}_i - \bar{y})^2\) es suficientemente grande, se lleva a cabo

La prueba F

\[ \underbrace{H_0: \beta_1 = 0}_{\text{agregar } x \text{ no} \\ \text{redujo la variabilidad} \\ \text{de }y} \space \space \space \space \space \space \space H_a: \beta_1 \neq 0 \]

Estadística de prueba \(F := \frac{RegSS/1}{Rss/(n-2)}\)

Sea \(F_{1, n-2, \alpha} \in \mathbb{R}\) tal que \(\mathbb{P}(F_{1,n-2}> \underbrace{F_{1, n-2, \alpha}}_{\text{upper cuantil}}) = \alpha\)

Regla de decisión

Una relación “bonita” entre \(F\) y \(R\) (en SLR)

\[ F = \frac{RegSS/1}{Rss/(n-2)} = (n-2)\frac{R^2}{1-R^2} = (n-2)\frac{r_{xy}^2}{1-r_{xy}^2}\\ \text{Obs: la aplicación } R^2 \mapsto F = (n-2)\frac{R^2}{1-R^2} \text{ es creciente.} \]

Propiedades de \(\hat{\beta_0}\) y \(\hat{\beta_1}\)

Intervalos de confianza para \(\beta_j\)

A partir de los errores estándar ya definidos, se puede demostrar que los intervalos del \((1-\alpha)\%\) de confianza para \(\beta_j\) es:

\[ \hat{\beta}_j \pm \underbrace{t_{n-2, \frac{\alpha}{2}}}_{\text{upper cuantil}\\ \text{al nivel } \frac{\alpha}{2} \text{ de una} \\ \text{distribución } t_{(n-2)}} \cdot SE(\hat{\beta}_j), \space \space \space \space \space i = 0,1 \]

En general se pueden plantear hipótesis de la siguiente manera:

  1. \(H_0: \beta_j = d\) v.s. \(H_1: \beta_j \neq d\)
  2. \(H_0: \beta_j = d\) v.s. \(H_1: \beta_j > d\)
  3. \(H_0: \beta_j = d\) v.s. \(H_1: \beta_j < d\)

Donde \(d \in \mathbb{R}\) especificado por el usuario.

Para este tipo de contraste usábamos la prueba \(t\).

\[ t(\hat{\beta}_j) = \frac{\hat{\beta}_j - d}{SE(\hat{\beta}_j)}, \space \space \space \space \space \space j = 0,1 \]