`sklearn.tree`.ExtraTreeRegressor¶

class sklearn.tree.ExtraTreeRegressor¶

Un árbol regresor extremadamente aleatorio.

Los extra-árboles difieren de los árboles de decisión clásicos en la forma en que se construyen. Cuando se busca la mejor división para separar las muestras de un nodo en dos grupos, se dibujan divisiones aleatorias para cada una de las características seleccionadas al azar max_features y se elige la mejor división entre ellas. Cuando max_features se fija en 1, esto equivale a construir un árbol de decisión totalmente aleatorio.

Advertencia: Los extra-árboles sólo deben utilizarse dentro de los métodos de conjunto.

Lee más en el Manual de usuario.

Parámetros

criterion{«mse», «friedman_mse», «mae»}, default=»mse»

La función para medir la calidad de una separación. Los criterios soportados son «mse» para el error cuadrático medio, que es igual a la reducción de la varianza como criterio de selección de características y «mae» para el error absoluto medio.

Nuevo en la versión 0.18: Criterio de Error Absoluto Medio (EAM, MAE en inglés).

Nuevo en la versión 0.24: Criterio de desviación de Poisson.

splitter{«random», «best»}, default=»random»

La estrategia utilizada para elegir la separación en cada nodo. Las estrategias soportadas son «best» para elegir la mejor separación y «random» para elegir la mejor separación aleatoria.

max_depthint, default=None

La profundidad máxima del árbol. Si es None, los nodos se expanden hasta que todas las hojas sean puras o hasta que todas las hojas contengan menos muestras que min_samples_split.

min_samples_splitint o float, default=2

El número mínimo de muestras necesario para separar un nodo interno:

Si es int, entonces considere min_samples_split como el número mínimo.
Si es de punto flotante (float), min_samples_split es una fracción y ceil(min_samples_split * n_samples) es el número mínimo de muestras para cada separación.

Distinto en la versión 0.18: Se han añadido valores flotantes para las fracciones.

min_samples_leafint o float, default=1

El número mínimo de muestras requerido para estar en un nodo hoja. Un punto de separación en cualquier profundidad sólo se considerará si deja al menos min_samples_leaf muestras de entrenamiento en cada una de las ramas izquierda y derecha. Esto puede tener el efecto de suavizar el modelo, especialmente en la regresión.

Si es entero, entonces considera min_samples_split como el número mínimo.
Si es de punto flotante (float), entonces min_samples_leaf es una fracción y ceil(min_samples_leaf * n_samples) son el número mínimo de muestras para cada nodo.

Distinto en la versión 0.18: Se han añadido valores flotantes para las fracciones.

min_weight_fraction_leaffloat, default=0.0

La fracción ponderada mínima de la suma total de pesos (de todas las muestras de entrada) requerida para estar en un nodo hoja. Las muestras tienen el mismo peso cuando no se proporciona sample_weight.

max_featuresint, float, {«auto», «sqrt», «log2»} o None, default=»auto»

El número de características a considerar cuando se busca la mejor separación:

Si es int, entonces se consideran las características max_features en cada separación.
Si es de punto flotante (float), entonces max_features es una fracción y las características int(max_features * n_features) se consideran en cada separación.
Si es «auto», entonces max_features=n_features.
Si es «sqrt», entonces max_features=sqrt(n_features).
Si es «log2», entonces max_features=log2(n_features).
Si es None, entonces max_features=n_features.

Nota: la búsqueda de una división no se detiene hasta que se encuentra al menos una partición válida de las muestras del nodo, incluso si requiere inspeccionar efectivamente más características que max_features.

random_stateentero, instancia de RandomState o None, default=None

Se utiliza para elegir aleatoriamente el max_features utilizado en cada separación. Ver Glosario para más detalles.

min_impurity_decreasefloat, default=0.0

Un nodo se separará si esta separación induce una disminución de la impureza mayor o igual a este valor.

La ecuación de disminución de impurezas ponderada es la siguiente:

N_t / N * (impurity - N_t_R / N_t * right_impurity
                    - N_t_L / N_t * left_impurity)

donde N es el número total de muestras, N_t es el número de muestras en el nodo actual, N_t_L es el número de muestras en el hijo izquierdo, y N_t_R es el número de muestras en el hijo derecho.

N, N_t, N_t_R y N_t_L se refieren a la suma ponderada, si se pasa sample_weight.

Nuevo en la versión 0.19.

min_impurity_splitfloat, default=None

Umbral para la parada anticipada en el crecimiento del árbol. Un nodo se separará si su impureza está por encima del umbral, de lo contrario será una hoja.

Obsoleto desde la versión 0.19: El valor de min_impurity_split ha quedado obsoleto en favor de min_impurity_decrease en 0.19. El valor predeterminado de min_impurity_split ha cambiado de 1e-7 a 0 en 0.23 y se eliminará en 1.0 (cambio de nombre de 0.25). Utilice min_impurity_decrease en su lugar.

max_leaf_nodesint, default=None

Crece un árbol con max_leaf_nodes en modo best-first. Los mejores nodos se definen como una reducción relativa de la impureza. Si es None, el número de nodos de la hoja es ilimitado.

ccp_alphaflotante no negativo, default=0.0

Parámetro de complejidad utilizado para la poda de complejidad de coste mínimo. Se elegirá el subárbol con la mayor complejidad de costes que sea menor que ccp_alpha. Por defecto, no se realiza ninguna poda. Ver Poda de Coste-Complejidad Mínima para más detalles.

Nuevo en la versión 0.22.

Atributos

max_features_int: El valor inferido de max_features.
n_features_int: El número de características cuando fit es realizado.
feature_importances_ndarray de forma (n_features,): Devuelve la importancia de las características.
n_outputs_int: El número de salidas cuando se realiza fit.
tree_Instancia del árbol: El objeto Tree subyacente. Por favor, consulte help(sklearn.tree._tree.Tree) para los atributos del objeto Tree y Comprensión de la estructura del árbol de decisiones para el uso básico de estos atributos.

Ver también

ExtraTreeClassifier: Un clasificador de árboles extremadamente aleatorio.
sklearn.ensemble.ExtraTreesClassifier: Un clasificador extra-árbol.
sklearn.ensemble.ExtraTreesRegressor: Un regresor extra-árbol.

Notas

Los valores predeterminados de los parámetros que controlan el tamaño de los árboles (por ejemplo, `max_depth, min_samples_leaf, etc.) conducen a árboles completamente desarrollados y sin podar que pueden ser potencialmente muy grandes en algunos conjuntos de datos. Para reducir el consumo de memoria, la complejidad y el tamaño de los árboles deben controlarse estableciendo los valores de esos parámetros.

Referencias

1: P. Geurts, D. Ernst., and L. Wehenkel, «Extremely randomized trees», Machine Learning, 63(1), 3-42, 2006.

Ejemplos

>>>>>> from sklearn.datasets import load_diabetes
>>> from sklearn.model_selection import train_test_split
>>> from sklearn.ensemble import BaggingRegressor
>>> from sklearn.tree import ExtraTreeRegressor
>>> X, y = load_diabetes(return_X_y=True)
>>> X_train, X_test, y_train, y_test = train_test_split(
...     X, y, random_state=0)
>>> extra_tree = ExtraTreeRegressor(random_state=0)
>>> reg = BaggingRegressor(extra_tree, random_state=0).fit(
...     X_train, y_train)
>>> reg.score(X_test, y_test)
0.33...

Métodos

`apply`	Devuelve el índice de la hoja como la que se predice cada muestra.
`cost_complexity_pruning_path`	Calcule la ruta de poda durante la poda de coste-complejidad mínima.
`decision_path`	Devuelve la ruta de decisión en el árbol.
`fit`	Construir un árbol de decisión regresor a partir del conjunto de entrenamiento (X, y).
`get_depth`	Devuelve la profundidad del árbol de decisión.
`get_n_leaves`	Devuelve el número de hojas del árbol de decisión.
`get_params`	Obtiene los parámetros para este estimador.
`predict`	Predice la clase o regresión para X.
`score`	Devuelve el coeficiente de determinación $R^{2}$ de la predicción.
`set_params`	Establece los parámetros de este estimador.

apply()¶

Devuelve el índice de la hoja como la que se predice cada muestra.

Nuevo en la versión 0.17.

Parámetros

X{array-like, sparse matrix} de forma (n_samples, n_features): Las muestras de entrada. Internamente, se convertirá a dtype=np.float32 y si se proporciona una matriz dispersa a una csr_matrix dispersa.
check_inputbool, default=True: Permite eludir varias comprobaciones de entrada. No uses este parámetro a menos que sepas lo que haces.

Devuelve

X_leavesarray-like de forma (n_samples,): Para cada punto de datos x en X, devuelve el índice de la hoja en la que termina x. Las hojas se numeran dentro de [0; self.tree_.node_count), posiblemente con huecos en la numeración.

cost_complexity_pruning_path()¶

Calcule la ruta de poda durante la poda de coste-complejidad mínima.

Ver Poda de Coste-Complejidad Mínima for details on the pruning process.

Parámetros

X{array-like, sparse matrix} de forma (n_samples, n_features): Las muestras de entrada de entrenamiento. Internamente, se convertirá a dtype=np.float32 y si se proporciona una matriz dispersa a una csc_matrix dispersa.
yarray-like de forma (n_samples,) o (n_samples, n_outputs): Los valores objetivo (etiquetas de clase) como enteros o cadenas.
sample_weightarray-like de forma (n_samples,) default=None: Pesos de las muestras. Si es None, las muestras se ponderan por igual. Las separaciones que crearían nodos hijos con peso neto cero o negativo se ignoran al buscar una separación en cada nodo. Las separaciones también se ignoran si dan lugar a que una sola clase tenga un peso negativo en cualquiera de los nodos hijos.

Devuelve

ccp_pathBunch

Objeto tipo diccionario, con los siguientes atributos.

ccp_alphasndarray: Alfas efectivas del subárbol durante la poda.
impurezasndarray: Suma de las impurezas de las hojas del subárbol para el valor alfa correspondiente en ccp_alphas.

decision_path()¶

Devuelve la ruta de decisión en el árbol.

Nuevo en la versión 0.18.

Parámetros

X{array-like, sparse matrix} de forma (n_samples, n_features): Las muestras de entrada. Internamente, se convertirá a dtype=np.float32 y si se proporciona una matriz dispersa a una csr_matrix dispersa.
check_inputbool, default=True: Permite eludir varias comprobaciones de entrada. No uses este parámetro a menos que sepas lo que haces.

Devuelve

indicatormatriz dispersa de forma (n_samples, n_nodes): Devuelve una matriz CSR indicadora de nodos donde los elementos no nulos indican que las muestras pasan por los nodos.

property feature_importances_¶

Devuelve la importancia de las características.

La importancia de una característica se calcula como la reducción total (normalizada) del criterio aportado por esa característica. También se conoce como la importancia de Gini.

Advertencia: las importancias de las características basadas en la impureza pueden ser no representativas para las características de alta cardinalidad (muchos valores únicos). Ver sklearn.inspection.permutation_importance como alternativa.

Devuelve

feature_importances_ndarray de forma (n_features,): Reducción total normalizada de los criterios por característica (importancia de Gini).

fit()¶

Construir un árbol de decisión regresor a partir del conjunto de entrenamiento (X, y).

Parámetros

X{array-like, sparse matrix} de forma (n_samples, n_features): Las muestras de entrada de entrenamiento. Internamente, se convertirá a dtype=np.float32 y si se proporciona una matriz dispersa a una csc_matrix dispersa.
yarray-like de forma (n_samples,) o (n_samples, n_outputs): Los valores objetivo (números reales). Utilice dtype=np.float64 y order='C' para obtener la máxima eficiencia.
sample_weightarray-like de forma (n_samples,) default=None: Pesos de las muestras. Si es None, las muestras se ponderan por igual. Las separaciones que crearían nodos hijos con peso neto cero o negativo se ignoran al buscar una separación en cada nodo.
check_inputbool, default=True: Permite eludir varias comprobaciones de entrada. No uses este parámetro a menos que sepas lo que haces.
X_idx_sortedobsoleto, default=»deprecated»: Este parámetro está obsoleto y no tiene ningún efecto. Se eliminará en la versión 1.1 (cambio de nombre de la versión 0.26).

Obsoleto desde la versión 0.24.

Devuelve

selfDecisionTreeRegressor: Estimador ajustado.

get_depth()¶

Devuelve la profundidad del árbol de decisión.

La profundidad de un árbol es la distancia máxima entre la raíz y cualquier hoja.

Devuelve

self.tree_.max_depthint: La profundidad máxima del árbol.

get_n_leaves()¶

Devuelve el número de hojas del árbol de decisión.

Devuelve

self.tree_.n_leavesint: Número de hojas.

get_params()¶

Obtiene los parámetros para este estimador.

Parámetros

deepbool, default=True: Si es True, devolverá los parámetros para este estimador y los subobjetos contenidos que son estimadores.

Devuelve

paramsdict: Nombres de parámetros mapeados a sus valores.

predict()¶

Predice la clase o regresión para X.

Para un modelo de clasificación, se devuelve la clase predicha para cada muestra en X. Para un modelo de regresión, se devuelve el valor predicho basado en X.

Parámetros

X{array-like, sparse matrix} de forma (n_samples, n_features): Las muestras de entrada. Internamente, se convertirá a dtype=np.float32 y si se proporciona una matriz dispersa a una csr_matrix dispersa.
check_inputbool, default=True: Permite eludir varias comprobaciones de entrada. No uses este parámetro a menos que sepas lo que haces.

Devuelve

yarray-like de forma (n_samples,) o (n_samples, n_outputs): Las clases predichas, o los valores predichos.

score()¶

Devuelve el coeficiente de determinación $R^{2}$ de la predicción.

El coeficiente $R^{2}$ se define como $(1 - \frac{u}{v})$ , donde $u$ es la suma residual de cuadrados ((y_true - y_pred) ** 2).sum() y $v$ es la suma total de cuadrados ((y_true - y_true.mean()) ** 2).sum(). La mejor puntuación posible es 1,0 y puede ser negativa (porque el modelo puede ser arbitrariamente peor). Un modelo constante que siempre predice el valor esperado de y, sin tener en cuenta las características de entrada, obtendría una puntuación $R^{2}$ de 0,0.

Parámetros

Xarray-like de forma (n_samples, n_features): Muestras de prueba. Para algunos estimadores esto puede ser una matriz de núcleo precalculada o una lista de objetos genéricos con forma (n_samples, n_samples_fitted), donde n_samples_fitted es el número de muestras utilizadas en el ajuste para el estimador.
yarray-like de forma (n_samples,) o (n_samples, n_outputs): Valores verdaderos para X.
sample_weightarray-like de forma (n_samples,) default=None: Ponderaciones de muestras.

Devuelve

scorefloat: $R^{2}$ de self.predict(X) con respecto a y.

Notas

La puntuación $R^{2}$ utilizada al llamar a score en un regresor utiliza multioutput='uniform_average' desde la versión 0.23 para mantener la coherencia con el valor predeterminado de r2_score`. Esto influye en el método score de todos los regresores de salida múltiple (excepto para MultiOutputRegressor).

set_params()¶

Establece los parámetros de este estimador.

El método funciona tanto con estimadores simples como con objetos anidados (como Pipeline). Estos últimos tienen parámetros de la forma ``<component>__<parameter>` para que sea posible actualizar cada componente de un objeto anidado.

Parámetros

**paramsdict: Parámetros del estimador.

Devuelve

selfinstancia del estimador: Instancia del estimador.