Construcción del modelo de regresión

regresion

Veremos el modelo de regresión

Authors

Affiliations

Eduardo Selim M. M.

Carlos A. Ar.

Published

May 12, 2021

DOI

El MLR proporciona mayor flexibilidad para describir la relación entre la respuesta y las variables explicativas.
El reto ahora es cómo representar diversos predictores (variables explicativas / covariables) de manera adecuada. (este “problema” no se presentaba en SLR)

Tipos de variables explicativas

numéricas
categóricas
La manera más sencilla de representar en un modelo de regresión a una variable numérica es asignar un coeficiente de regresión a esta variable, i.e.

En esta especificación, en una unidad de incremento en se espera un incremento en de unidades.

Sin embargo, hay situaciones en las que la relación entre y no parece ser lineal. Entonces, podría ser deseable “expedir” la función de regresión con potencias de , llevando a una especificación que se conoce como regresión polinomial.

Para algún
En el modelo de regresión polinomialm no hay linealidad en sino en los primeros parámetros , por eso se considera un modelo lineal.
Una pregunta que surge naturalmente es cómo determinar el grado del polinomio, i.e. cómo determinar . Lo estudiaremos más adelante mediante algunos métodos de selección de modelos.

¿Qué pasa con variables categóricas?

Hay que representarlas de manera cuantitativa, una manera de hacer esto es la siguiente
- Para una variable categórica con niveles i.e. con categorías ()m se necesita introducir variables indicadoras: donde a cada una se le asigna un coeficiente de regresión (por separado), donde
- Ejemplo:
  
  $$ x_{} {}\
  
  x_1 =
  
  \
  
  x_2 =
  
  $$

El último renglón se conoce como **nivel base**

1	0	0
0	1	0

0	0	1
0	0	0

Ejmplo:
Si Si el estatus de consumo de tabaco es la única variable explicativa, la ecuación del modelo de regresión es:
Observación: no es necesario definir una variable indicadora para indicar a los no-fumadores. Si se definiera dicha variable que . Dicha relación lineal perfecta entre y desestabilizará el proceso de estimación, esto se conoce como colinealidad y se estudiará más adelante.
El nivel que se excluye en la descomposición en variables indicadoras se comoce como nivel baseline ó nivel de referencia.
Se se escoge a “no-fumador” como baseline, el coeficiente se puede interpretar como el valor de cuando la observación es “no-fumador” y captura la diferencia promedio en entre un fumador y un no-fumador.
Esta codificación del estatus de fumador no es la única. Se puede asignar a “fumador” como un nivel baseline ó utilizar una codificación . Bajo diferentes codificaciones sus estimaciones parametrales y sus interpretaciones difierirán, aunque las predicciones serán las mismas.
- Si el nivel baseline es “fumadores” , la ecuación del modelo se convierte en:
  
  En este caso, es el valor esperado de la respuesta para fumadores y representa el incremento en para un no fumador, comparado con un fumador.
- Para relacionar la estimación de parámetros en ambas codificaciones se usa el hecho de que , entonces
  
  De aquí que y
- Sin importar si la codificación es ó , las predicciones son las mismas:
Si se usa la codificación 1/-1 (en vez de 1/0 ó 0/1) entonces
La ecuación del modelo se convierte en
Esta codificación 1/-1 tiene la “ventaja” de hacer al intercepto el “promedio global” de para todos los individuos ognorando el efecto de fumado/no-fumador. Además es la cantidad que los fumadores tienen adicional al promedio y también es la cantidad que los no-fumadores tienen faltante al promedio.
Desde el punto de vista computacional, es conveniente seleccionar al nivel más común (la de mayor frecuencia) como el nivel baseline.
- Esto se debe a que se tendrá muvhos en la matríz de diseño y será más fácil calcular

Interacción

Hasta el momento, sólo se han considerado modelos en los que la relación entre la respuesta y la variable explicativas es aditiva.
Sin embargo, también podemos hacer una especificación de la forma.
- Aquí se conoce como variable de interacción y se le trata como una variable explicativa adicional con un coeficiente de regresión por separado
- Obsérvese que, incrementar una unidad en x_1
- Equivalentemente
- Es decir, el incremento es una unidad en incrementará a en (que depende de )
- Por lo tanto, el impacto de cada varía con en valor tomado por la otra variable explicativa y se dice que y interactúan entre sí para afectar .

Interacción entre las variables explicativas continuas y categóricas

La interacción entre una variable categórica y una continua tiene una interpretación geométrica muy importante, que no se puede dar sólo con variables continuas.
Considérese un modelo MLR con una variable explicativa continua , una variable binaria y una . La ecuación del modelo es:
Se puede ver a éste como dos modelos SLR por separado: una para y otro para .
Obsérvese que ambos modelos tienen diferentes interceptos y diferentes pendientes.
¿Qué pasa si ? Es decir, si no hay interacción. La ecuación de modelo se convierte en:
- Para el grupo baeline (i.e. ). El incremento en una unidad es incremento a a
- Para el grupo . El incremento es una unidad en incrementa a en
Si , el efecto de sobre difiere de acuerdo a si ó … una manifestación de la interacción.
Si , la interacción desaparece y simplemente se están ajustando 2 rectas paralelas (con diferentes interceptos) a los datos.
En es poco común que
Es decir, el efecto puede ser real pero el de y se insignificante. En este caso se apela a lo que se conoce como “principio jerárquico” y se incluye no sólo sino también y para facilitar la interpretación.

Modelos de regresión lineal picewise

En ciertas aplicaciones puede ser deseable que la variable respuesta muestre cambios abiertos en el comportamiento sobre diferentes intervalos de la variable explicativa (que se conoce como “rompimiento estructural”).
En el caso en el que una variable explicativa es categórica ya se explicó (un quiebre por cada nievel). Esto también se puede estudiar como una variable explicativa continua.

Modelo 1.

Considérese un modelo de variable explicativa .
Sea para algún .
Considérese la función de regresión:
La pendiente de la función de regresión cambia abruptamente de a en
Dicho modelo se puede ver como un modelo MLR con dos variables explicativas y y la inferencia se lleva a cabo como se hace normalmente.
Con este modelo se obtiene una sola función de regresión formada por 2 rectas conectadas continuamente en (que se conoce como kink [torcedura]). Por esta razón, a este modelo se le conoce como modelo de regresión lineal pice wise.

Modelo 2

La función de regresión en un modelo de regresión lineal picewise no necesita ser continua.
Una función de regresión con saltos resultará de “interactuar” una variable explicativa continua con la variable dummy
La función de regresión es:
Que consiste en dos líneas rectas que generalmente no se conectan, divididas en .

Construcción del modelo de regresión

Authors

Affiliations

Published

DOI

Tipos de variables explicativas

¿Qué pasa con variables categóricas?

Interacción

Interacción entre las variables explicativas continuas y categóricas

Modelos de regresión lineal picewise

Modelo 1.

Modelo 2

Footnotes