Veremos el modelo de regresión
El MLR proporciona mayor flexibilidad para describir la relación entre la respuesta y las variables explicativas.
El reto ahora es cómo representar diversos predictores (variables explicativas / covariables) de manera adecuada. (este “problema” no se presentaba en SLR)
numéricas
categóricas
La manera más sencilla de representar en un modelo de regresión a una variable numérica es asignar un coeficiente de regresión a esta variable, i.e.
y=β0+β1x+ términos que no involucran a x+ϵ
En esta especificación, en una unidad de incremento en x se espera un incremento en y de β1 unidades.
y=β0+β1(x+1)+ términos que no involucran a x+ϵ
Sin embargo, hay situaciones en las que la relación entre x y y no parece ser lineal. Entonces, podría ser deseable “expedir” la función de regresión con potencias de x, llevando a una especificación que se conoce como regresión polinomial.
y=β0+β1x+β2x2+...+βmxm+ términos que no involucran a x+ϵ
Para algún m∈N+
En el modelo de regresión polinomialm no hay linealidad en x sino en los primeros parámetros β′sj, por eso se considera un modelo lineal.
Una pregunta que surge naturalmente es cómo determinar el grado del polinomio, i.e. cómo determinar m. Lo estudiaremos más adelante mediante algunos métodos de selección de modelos.
Hay que representarlas de manera cuantitativa, una manera de hacer esto es la siguiente
Para una variable categórica con r niveles i.e. con r categorías (r≥2)m se necesita introducir r−1 variables indicadoras: x1,x2,...,xr−1 donde a cada una se le asigna un coeficiente de regresión (por separado), donde
xi={1,si la categoría es i,0, c.o.c.
Ejemplo:
$$ x_{} {}\
x_1 =
{1,si xcat es perro,0, c.o.c.\
x_2 =
{1,si xcat es caballo,0, c.o.c.$$
| Nivel de la variable categórica | x1 |
x2 |
... |
xr−1 |
|---|---|---|---|---|
| 1 |
1 | 0 | ... |
0 |
| 2 |
0 | 1 | ... |
0 |
| ... |
||||
| r−1 |
0 | 0 | ... |
1 |
| r |
0 | 0 | ... |
0 |
Ejmplo:
Si x={1, para fumadores0, para no fumadores Si el estatus de consumo de tabaco es la única variable explicativa, la ecuación del modelo de regresión es:
E(y)=β0+β1x={β0+β1, para fumadoresβ0, para no fumadores
Observación: no es necesario definir una variable indicadora x′={1, para fumadores0, para no fumadores para indicar a los no-fumadores. Si se definiera dicha variable que x+x′=1. Dicha relación lineal perfecta entre x y x′ desestabilizará el proceso de estimación, esto se conoce como colinealidad y se estudiará más adelante.
El nivel que se excluye en la descomposición en variables indicadoras se comoce como nivel baseline ó nivel de referencia.
Se se escoge a “no-fumador” como baseline, el coeficiente β0 se puede interpretar como el valor de E(y) cuando la observación es “no-fumador” y β1 captura la diferencia promedio en E(y) entre un fumador y un no-fumador.
Esta codificación del estatus de fumador no es la única. Se puede asignar a “fumador” como un nivel baseline ó utilizar una codificación −1/1. Bajo diferentes codificaciones sus estimaciones parametrales y sus interpretaciones difierirán, aunque las predicciones serán las mismas.
Si el nivel baseline es “fumadores” x′={0, para fumadores1, para no fumadores , la ecuación del modelo se convierte en:
E(y)=α0+α1x={α0, para fumadoresα0+α1, para no fumadores
En este caso, α0 es el valor esperado de la respuesta para fumadores y α1 representa el incremento en E(y) para un no fumador, comparado con un fumador.
Para relacionar la estimación de parámetros en ambas codificaciones se usa el hecho de que x′=1−x, entonces
E(y)=α0+α1x′=α0+α1(1−x)=(α0+α1)⏟β0+(−α1)⏟β1x
De aquí que ^β0=^α0+^α1 y ^β1=−^α1
Sin importar si la codificación es 0/1 ó 1/0, las predicciones son las mismas:
ˉy=^β0+^β1⋅1⏟valor ajustadobajo codificación 1/0=(ˆα0+^α1)−^α1=ˆα0=^α0+^α1⋅0⏟valor ajustadobajo codificación 0/1ˉy=^β0+^β1⋅0⏟valor ajustadobajo codificación 1/0=ˆβ0=ˆα0+^α1=^α0+^α1⋅1⏟valor ajustadobajo codificación 0/1∴Las preicciones son las mismas
Si se usa la codificación 1/-1 (en vez de 1/0 ó 0/1) entonces
xn={1 para fumadores,−1 para no fumadores
La ecuación del modelo se convierte en
E(y)=γ0+γ1x″={γ0+γ1 para fumadores,γ0−γ1 para no fumadores
Esta codificación 1/-1 tiene la “ventaja” de hacer al intercepto γ0 el “promedio global” de y para todos los individuos ognorando el efecto de fumado/no-fumador. Además γ1 es la cantidad que los fumadores tienen adicional al promedio y γ1 también es la cantidad que los no-fumadores tienen faltante al promedio.
Desde el punto de vista computacional, es conveniente seleccionar al nivel más común (la de mayor frecuencia) como el nivel baseline.
Hasta el momento, sólo se han considerado modelos en los que la relación entre la respuesta y la variable explicativas es aditiva.
E(y)=β0+β1x1+β2x2
Sin embargo, también podemos hacer una especificación de la forma.
E(y)=β0+β1x1+β2x2+β3x3
Aquí x3:=x1x2 se conoce como variable de interacción y se le trata como una variable explicativa adicional con un coeficiente de regresión por separado β3
Obsérvese que, incrementar una unidad en x_1
β0+β1(x1+1)+β2x2+β3(x1+1)x2=β0+β1x1+β1+β2x2+β3x1+β3x2=β0+β1x1+β2x2+β3x1+(β3x2+β1)
Equivalentemente
ddx1E(y)=ddx1(β0+β1x1+β2x2+β3x1x2)=β1+β3x2
Es decir, el incremento es una unidad en x1 incrementará a E(y) en β1+β3x2 (que depende de x2)
Por lo tanto, el impacto de cada x varía con en valor tomado por la otra variable explicativa y se dice que x1 y x2 interactúan entre sí para afectar E(y).
La interacción entre una variable categórica y una continua tiene una interpretación geométrica muy importante, que no se puede dar sólo con variables continuas.
Considérese un modelo MLR con una variable explicativa continua x1, una variable binaria x2 y una x1x2. La ecuación del modelo es:
E(y)=β0+β1x1+β2x2+β3x1x2={β0+β1x1, si x2=0(β0+β2)+(β1+β3)x1, si x2=1
Se puede ver a éste como dos modelos SLR por separado: una para x2=0 y otro para x2=1.
Obsérvese que ambos modelos tienen diferentes interceptos y diferentes pendientes.

¿Qué pasa si β3=0? Es decir, si no hay interacción. La ecuación de modelo se convierte en:

Para el grupo baeline (i.e. x2=0). El incremento en una unidad es x1 incremento a E(y) a β1
Para el grupo x2=1. El incremento es una unidad en x1 incrementa a E(y) en β1+β3
Si β3≠0, el efecto de x1 sobre y difiere de acuerdo a si x2=0 ó x2=1 … una manifestación de la interacción.
Si β3=0, la interacción desaparece y simplemente se están ajustando 2 rectas paralelas (con diferentes interceptos) a los datos.
En E(y)=β0+β1x1+β2x2+β3x1x2 es poco común que
β3≠0⏟evidenciado por una estadística grande ó un p-value pequeño. y β1=β2=0⏟con la comesp prueba estadística
Es decir, el efecto puede ser real pero el de x1 y x2 se insignificante. En este caso se apela a lo que se conoce como “principio jerárquico” y se incluye no sólo β3 sino también β1 y β2 para facilitar la interpretación.
En ciertas aplicaciones puede ser deseable que la variable respuesta muestre cambios abiertos en el comportamiento sobre diferentes intervalos de la variable explicativa (que se conoce como “rompimiento estructural”).
En el caso en el que una variable explicativa es categórica ya se explicó (un quiebre por cada nievel). Esto también se puede estudiar como una variable explicativa continua.
Considérese un modelo de variable explicativa x.
Sea z=1{x≥c} para algún c∈R.
Considérese la función de regresión:
E(y)=β0+β1x+β2z(x−c)=β0+β1x+β2(x−c)+ donde u+:=max{u,0}={β0+β1x si x<c,(β0−β2c)+(β1+β2)x si x≥c
La pendiente de la función de regresión cambia abruptamente de β1 a β1+β2 en x=c
Dicho modelo se puede ver como un modelo MLR con dos variables explicativas x y (x−c)+ y la inferencia se lleva a cabo como se hace normalmente.
Con este modelo se obtiene una sola función de regresión formada por 2 rectas conectadas continuamente en x=c (que se conoce como kink [torcedura]). Por esta razón, a este modelo se le conoce como modelo de regresión lineal pice wise.

La función de regresión en un modelo de regresión lineal picewise no necesita ser continua.
Una función de regresión con saltos resultará de “interactuar” una variable explicativa continua x con la variable dummy z=1{x>c}
La función de regresión es:
E(y)=β0+β1x+β2z+β3zx={β0+β1x si z=0⟺x<c,(β0+β2c)+(β1+β3)x si z=1⟺x≥c
Que consiste en dos líneas rectas que generalmente no se conectan, divididas en x=c.
