Repaso de regresión lineal con una variable explicativa.
Es una técnica supervisada. La respuesta será y mientras que las variables explicativas, predictivas o covariables se denotarán por x1,x2,...,xp. La familia de los modelos lineales es muy versátil.
y=β0+β1x1+...+βpxp
Hay una relación lineal entre y y x1,x2,...,xp
g(y)=β0+β1x1+...+βpxp
Donde g es una función.
Ejemplos por excelencia de este tipo de rtegresión:
Regresión logística.
Regresión Poisson.
y=β0+β1g(x1)+β2g(x2)+...+βpg(xp)
En general nos interesan al menos 5 cosas (independientemente del modelo lineal a trabajar).
¿Cómo se estiman las β′s?
¿Algunas propiedades que tienen los estimadores ˆβ′s?
Insesgado
Varianza
Intervalo de confianza
Predicción ˆyi
Bondad de ajuste, es decir ¿yi≈^yi?
¿Cuáles de entre x1,...,xp son importantes para determinar la relación con y? Selección de variables o feature engineering.
El modelo SLR (Simple Linear Regression) se basa en algunas suposiciones:
yi=β0+β1xi+ϵi,i=1,...,n es decir, el número de observaciones es n
y′si son realizaciones de variables aleatorias. Los valores xi son no-aleatorios.
Las cantidades ϵ1,...,ϵn representan errores aleatorios que son independientes entre sí y además:
E(ϵi)=0,i=1,...,n
Var(ϵi)=σ2 Conocida como Hipótesis de homocedasticidad.
Bajo estos supuestos se tiene que
E(yi)=β0+β1xi
Var(yi)=Var(β0+β1xi+ϵi)=Var(ϵi)=σ2
Cosas que ya deberíamos saber:
Estimación de β0 y β1 por mínimos cuadrados.
SS(β0,β1):=n∑i=1[yi⏟observado−(β0+β1xi)⏟Supuesto]2
ˆβ1=n∑i=1(xi−ˉx)(yi−ˉy)n∑i=1(xi−ˉx)2=SxySxx
ˆβ0=ˉy−^β1ˉx
donde
Sxy=n∑i=1(xi−ˉx)(yi−ˉy)=n∑i=1xiyi−nˉxˉySxx=n∑i=1(xi−ˉx)2=n∑i=1x2i−nˉx2
Una propiedad interesante de estos estimadores es la siguiente
ˆβ1=rxySySx
donde
Sy:=√1n−1n∑i=1(yi−ˉy)2Sx:=√1n−1n∑i=1(xi−ˉx)2Coeficiente de correlación muestral entre x y y:rxy=Sxy√SxxSyy
Este resultado “justifica” el caso de la correlación como medida de asociación lineal y el dibujo que nos encanta ❤️
Ya con estos ˆβ0 y ˆβ1 en la mano, podemos definir ˆyi=ˆβ0+ˆβ1xi como el ajustado y también los residuales como
ˆϵi=ei:=yi−ˆyi
Importante
Residuales≠Errores aleatorioei⏟Calculables, reales ϵi⏟Variables aleatoriasno observables
En los cursos se demuestra que
n∑i=1ei=0
n∑i=1xiei=0
Para hacer inferencia, tenemos que hacer algunas suposiciones, la más común es ϵi∼N(0,σ2) y además que ϵ1,ϵ2,...,ϵn son i.i.d’s.
Esta suposición nos lleva a que
yi∼N(β0+β1xi,σ2)
Tenemos que “evaluar” qué tan bueno es el modelo, es decir, si incorporar a la variable x para explicar y es valioso. Entonces
n∑i=1(yi−ˆyi)2⏟Modelo deregresión<n∑i=1(yi−ˉyi)2⏟Modelo naiveiid
Una descomposición popular es:
yi−ˉy=yi−ˆyi+ˆyi−ˉy
⇒ (Se demuestra)
n∑i=1(yi−ˉy)2⏟TSS=n∑i=1(yi−ˆyi)2⏟RSS óError S+n∑i=1(ˆyi−ˉy)2⏟Reg SS
n∑i=1(yi−ˉy)2=(n−1)S2y
Variación de la respuesta con respecto a su media muestral ˉy
Cantidad de variabilidad inherte en las respuestas antes de realizar la regresión.
RSS=n∑i=1(yi−ˆy)2
Variación de la respuesta con respecto a la rexta de regresión
Mide la bondad de ajuste de LSR. Mientras más bajo, mejor ↓ 😄
Mide la cantidad de variabilidad de la respuesta que no es explicada aún despu+es de introducir x
RegSS=n∑i=1(ˆyi−ˉy)2
Variación explicada por el modelo SLR i.e. el conocimiento de x v.s. el deconocimiento de x.
Mide qué tan efectivo es el modelo SLR en explicar la variación en y. (Incorporar x v.s. no incorporar x).
Trivialmente RSS<TSS
Como TSS permanece fijo, mientras más grande sea RegSS, más pequeño será RSS
RegSS grande & RSS pequeño → fue buena idea introducir x
Lo anterior motiva la definición de R2 a.k.a. coeficiente de determinación
R2:=RegSSTSS=1−RSSTSS
Se requiere que R2 sea lo más cercano posible a 1.
Mientras más grande sea el valor de R2, más efectiva será la recta de regresión en reducir la varianza de y.
En SLR hay relaciones entre ˆβ1 y RSS
RegSS=ˆβ21Sxx
RSS=Syy−ˆβ21Sxx
Como Sxx no cambia, entonces si ˆβ1 es grande, sucede que RegSS es grande y por tanto fue buena idea introducir x.
También se puede demostrar que en SLR
R2=r2xy⏟Cuadrado delcoeficiente deCorrelaciónmuestral=(Sxx√Sxx⋅Syy)2
Otra cantidad popular en el análisis de regresión es
MSE:=RSSn−2=n∑i=1e2in−2=:S2
Además S2 es un estimador insesgado de σ2, es decir E(S2)=σ2
Para probar formalmente si RegSS=n∑i=1(ˆyi−ˉy)2 es suficientemente grande, se lleva a cabo
H0:β1=0⏟agregar x noredujo la variabilidadde y Ha:β1≠0
Estadística de prueba F:=RegSS/1Rss/(n−2)
Sea F1,n−2,α∈R tal que P(F1,n−2>F1,n−2,α⏟upper cuantil)=α
Si F⏟estadísticade prueba>F1,n−2,α entonces se rechaza H0
O bien a través del p−value
Si P(F1,n−2>F)<α, entonces se rechaza H0
Una relación “bonita” entre F y R (en SLR)
F=RegSS/1Rss/(n−2)=(n−2)R21−R2=(n−2)r2xy1−r2xyObs: la aplicación R2↦F=(n−2)R21−R2 es creciente.
Si ϵ∼N(0,σ2), entonces ^β0 y ^β1 tienen también distribución Gaussiana:
E(^β0)=β0E(^β1)=β1Es decir que son estimadortes insesgadosVar(^β0)=σ2(1n+ˉx2Sxx)Var(^β1)=σ2SxxCov(^β0,^β1)=−ˉxσ2Sxx
Las desviaciones estándar estimadas de ^β0 y ^β1 se denotan como SE(^β0) y SE(^β1), respectivamente y se conocen como errores estándar.
Son medidas de la confiabilidad ó precaución de los LSE´s
De donde
SE(^β0)=√S2(1n+ˉx2Sxx)SE(^β1)=√S2Sxx
S2↦SE(ˆβ20) es creciente.
S2↦SE(ˆβ21) es creciente.
Sxx↦SE(ˆβ20) es decreciente.
Sxx↦SE(ˆβ21) es decreciente.
Recordemos que Sxx=n∑i=1(xi−ˉx)2
Lo anterior graficamente se puede ver así
Los errores estándar serán pequeños si las observaciones muestran gran tendencia a estar cerca de la recta de regresión y si los valores observados de la variable explicativa (i.e. x) están más “dispersos” a lo largo del eje x (es decir, Sxx grande).
Puede suceder que exista más dispersión pero eso no es garantía de un “buen ajuste”.
A partir de los errores estándar ya definidos, se puede demostrar que los intervalos del (1−α)% de confianza para βj es:
ˆβj±tn−2,α2⏟upper cuantilal nivel α2 de unadistribución t(n−2)⋅SE(ˆβj), i=0,1
En general se pueden plantear hipótesis de la siguiente manera:
Donde d∈R especificado por el usuario.
Para este tipo de contraste usábamos la prueba t.
t(ˆβj)=ˆβj−dSE(ˆβj), j=0,1