Repaso de regresión lineal con múltiples variables explicativas.
y=β0+β1x1+β2x2+...+βkxk+ϵ⏟función de regresión
Muestralmente
(yi,xi1,xi1,...,xik⏟Covariables, variables predictoras,features, variables explicativas), i=1,2,...,nDonde n es el número de observaciones.
Entonces yi=β0+β1xi1+...+βkxik+ϵi donde ϵi∼N(0,1) además de ser i.i.d.
Como antes
E(yi)=β0+β1xi1+...+βkxik
Interpretación muy popular es que βj es el cambio esperado en y, por unidad de cambio en xj (ceteris paribus) puesto que
∂E(yi)∂xj=βj
En términos matriciales
(y1y2⋮yn)⏟yn×1=(1x11x12…x1k1x21x22…x2k⋮⋮⋮⋱⋮1xn1xn2…xnk)⏟Xn×(k+1)Matríz de covariablesMatriz de diseño(β0β1⋮βk)⏟β(k+1)×1+(ϵ1ϵ2⋮ϵn)⏟ϵn×1
Nos hacemos las mismas preguntas de siempre
→¿ˆβ? ¿Cómo obtengo los estimadores?
→yi∼ˆyi, ⇒ ei=yi−ˆyi
→La certidumbre tanto de ˆβ como de ˆy(i.e. intervalos de confianza)
→Predicción: ¿Cómo se comporta el modelo ante variables explicativas no observadas?
→Future Engineering, selección de variables¿Qué variables aportan a explicar y?
Se obtiene por mínimos cuadrados
Se obtienen lo que se conoce como las ecuaciones normales.
y=Xβ⇒⏟Multiplicamos por XTXTy=XTXβ⇒⏟Estamos suponiendo que esta matríz es invertibleˆβ=(XTX)−1XTy
Como antes
RSS=n∑i=1(yi−ˆy)2RegSS=n∑i=1(ˆyi−ˉy)2 Estamos comparando el modelo de regresiónTSS=n∑i=1(yi−ˉy)2=(n−1)S2yVersus el modelo naiiveValor F:=RegSS/kRss/(n−(k+1))Se utiliza para evaluar si las k variables explicativasson colectivamente útiles para explicar.
Con la hipótesis de normalidad se demuestra que:
ˆβ∼Nk+1(β,σ2(XTX)−1)
Definición. (Coeficiente de determinación R2)
R2=RegSSTSS=n∑i=1(ˆyi−ˉy)2n∑i=1(yi−ˉy)2
Tristemente 😢en MLR (Multiple Linear Regression)ya no se cumple que
R2=r2
Sin embargo, sí se cumple que
R2=[n∑i=1(yi−ˉy)(ˆyi−ˉy)√n∑i=1(yi−ˉy)2n∑i=1(ˆyi−ˉy)2⏟Es el cuadrado de la correlaciónmuestral entre y y ˆy]2
F=n−k−1k⋅R21−R2
Ahora sí a construir el intervalo de confianza.
Está dado por
ˆβj±tn−(k+1),α2√S2(XTX)−1j−1,j+1