Árboles 2

arboles bootstrap bagging

Parte 2 de árboles.

Eduardo Selim M. M. , Carlos A. Ar.
05-10-2021

Bootstrap, bagging y random forests

Bootstrap

\[ D = \{(x_1,y_1), ..., (x_n,y_n)\} \]

Muestras bootstrap

Conclusión. Si se determina una muestra boostrap de un data set grande, aprox \(\frac{2}{3}\) de las observaciones originales estarán en la muestra bootstrap y \(\frac{1}{3}\) no aparecerá en la muestra bootstrap.

Bagging

Con el data-set original, se hará un muestreo bootstrap y se obtendrá un nuevo data-set \(D_1\)

Con este data ser \(D_1\), se ajustará un árbol

\[ \hat{y}_1 = \hat{f}_1(\underline{x}) \] \(\hat{f}_1\) es el árbol ajustado

\(\hat{y}_1\) es la predicción basándose en \(\hat{f}_1\)

Obtenemos una segunda muestra bootstrap y ajustamos un árbol:

\[ \hat{y}_2 = \hat{f}_2(\underline{x}) \]

Continuando con este procedimiento, se obtendrán \(B\) arboles \(\hat{f}_1, \hat{f}_2, ..., \hat{f}_B\) y \(B\) predicciones \(\hat{y}_1, \hat{y}_2, ..., \hat{y}_B\)

Obs: Un árbol individual, en muestra bagged puede tener un MSE menor que el árbol bagged.

Se incrementa el número de árboles individuales para avergiuar si el modelo mejora.

En caso de que se construya un árbol bagged incorporando un gran número de árboles individuales el MSE (de prueba) será más estable que usa un número pequeño de árboles individuales.