Versión 0.23.2¶

Modelos cambiados¶

Los siguientes estimadores y funciones, cuando se ajustan con los mismos datos y parámetros, pueden producir modelos diferentes de la versión anterior. Esto suele ocurrir debido a cambios en la lógica de modelización (corrección de errores o mejoras), o en los procedimientos de muestreo aleatorio.

Fix atributo inertia_ de cluster.KMeans y cluster.MiniBatchKMeans.

Los detalles están listados en el registro de cambios a continuación.

(Mientras intentamos informar mejor a los usuarios proporcionando esta información, no podemos asegurar que esta lista esté completa.)

Registro de cambios¶

`sklearn.cluster`¶

Fix Se corrigió un error en cluster.KMeans donde los errores de redondeo podían impedir que se declarara la convergencia cuando tol=0. #17959 por Jérémie du Boisberranger.
Fix Se corrigió un error en cluster.KMeans y cluster.MiniBatchKMeans donde la inercia informada se ponderaba incorrectamente por los pesos de la muestra. #17848 por Jérémie du Boisberranger.
Fix Se corrigió un error en cluster.MeanShift con bin_seeding=True. Cuando el ancho de banda estimado es 0, el comportamiento es equivalente a bin_seeding=False. #17742 por Jeremie du Boisberranger.
Fix Se corrigió un error en cluster.AffinityPropagation, que da conglomerados(clusters) incorrectos cuando el dtype del arreglo es float32. #17995 por Thomaz Santana y Amanda Dsouza.

`sklearn.decomposition`¶

Fix Se corrigió un error en decomposition.MiniBatchDictionaryLearning.partial_fit que debería actualizar el diccionario iterando solo una vez sobre un minilote. #17433 por Chiara Marmo.
Fix Evita desbordamientos en Windows en decomposition.IncrementalPCA.partial_fit para valores grandes de batch_size y n_samples. #17985 por Alan Butler y Amanda Dsouza.

`sklearn.ensemble`¶

Fix Se corrigió un error en ensemble.MultinomialDeviance donde el promedio de la pérdida logarítmica se calculaba incorrectamente como suma de pérdidas logarítmicas. #17694 por Markus Rempfler y Tsutomu Kusanagi.
Fix Corregida la compatibilidad de ensemble.StackingClassifier y ensemble.StackingRegressor con los estimadores que no definen n_features_in_. #17357 por Thomas Fan.

`sklearn.feature_extraction`¶

Fix Corregido un error en feature_extraction.text.CountVectorizer donde la invarianza del orden de las muestras se rompía cuando se establecía max_features y las características tenían el mismo conteo. #18016 por Thomas Fan, Roman Yurchak, y Joel Nothman.

`sklearn.linear_model`¶

Fix linear_model.lars_path no sobrescribe X cuando X_copy=True y Gram='auto'. #17914 por Thomas Fan.

`sklearn.manifold`¶

Fix Se corrigió un error donde metrics.pairwise_distances daba lugar a un error si metric='seuclidean' y X no es del tipo np.float64. #15730 por Forrest Koch.

`sklearn.metrics`¶

Fix Se corrigió un error en metrics.mean_squared_error donde el promedio de múltiples valores RMSE se calculaba incorrectamente como la raíz del promedio de múltiples valores MSE. #17309 por Swier Heeres.

`sklearn.pipeline`¶

Fix pipeline.FeatureUnion genera una advertencia de obsolescencia cuando se incluye None en transformer_list. #17360 por Thomas Fan.

`sklearn.utils`¶

Fix Corregida utils.estimator_checks.check_estimator para que todos los casos de prueba soporten la etiqueta de estimador binary_only. #17812 por Bruno Charron.

Versión 0.23.1¶

18 de mayo de 2020

Registro de cambios¶

`sklearn.cluster`¶

Efficiency Se ha mejorado la eficiencia de cluster.KMeans para conjuntos de datos muy pequeños. En particular, ya no puede generar hilos inactivos. #17210 y #17235 por :user:`Jeremie du Boisberranger <jeremiedbb>.
Fix Se corrigió un error en cluster.KMeans donde las ponderaciones de la muestra proporcionadas por el usuario se modificaban en su lugar. #17204 por Jeremie du Boisberranger.

Varios¶

Fix Se corrigió un error en el repr de los estimadores de terceros que utilizan un parámetro **kwargs en su constructor, cuando changed_only es True que es ahora el valor por defecto. #17205 por Nicolas Hug.

Versión 0.23.0¶

12 de mayo de 2020

Para una breve descripción de los principales aspectos de la versión, consulta Aspectos Destacados de scikit-learn 0.23.

Leyenda para registros de cambios¶

Major Feature : algo grande que antes no podías hacer.
Feature : algo que antes no podías hacer.
Efficiency : una característica existente ahora puede no requerir tanto cálculo o memoria.
Enhancement : una mejora menor variada.
Fix : algo que anteriormente no funcionaba según lo documentado – o según las expectativas razonables – ahora debería funcionar.
API Change : tendrás que cambiar tu código para tener el mismo efecto en el futuro; o una característica será eliminada en el futuro.

Aplicación de argumentos basados en palabras clave¶

En un esfuerzo por promover un uso claro y no ambiguo de la biblioteca, se espera que la mayoría de los parámetros de constructores y funciones se pasen como argumentos de palabra clave (es decir, utilizando la sintaxis param=valor) en lugar de posicionales. Para facilitar la transición, se genera un FutureWarning si un parámetro de palabra clave se utiliza como posicional. En la versión 1.0 (cambio de nombre de la 0.25), estos parámetros serán estrictamente de palabra clave, y se generará un TypeError. #15005 por Joel Nothman, Adrin Jalali, Thomas Fan, y Nicolas Hug. Ver SLEP009 para más detalles.

Modelos cambiados¶

Fix ensemble.BaggingClassifier, ensemble.BaggingRegressor, y ensemble.IsolationForest.
Fix cluster.KMeans con algorithm="elkan" y algorithm="full".
Fix cluster.Birch
Fix compose.ColumnTransformer.get_feature_names
Fix compose.ColumnTransformer.fit
Fix datasets.make_multilabel_classification
Fix decomposition.PCA con n_components='mle'
Enhancement decomposition.NMF y decomposition.non_negative_factorization con entrada de tipo float32.
Fix decomposition.KernelPCA.inverse_transform
API Change ensemble.HistGradientBoostingClassifier y ensemble.HistGradientBoostingRegressor
Fix estimator_samples_ en ensemble.BaggingClassifier, ensemble.BaggingRegressor y ensemble.IsolationForest
Fix ensemble.StackingClassifier y ensemble.StackingRegressor con sample_weight
Fix gaussian_process.GaussianProcessRegressor
Fix linear_model.RANSACRegressor con sample_weight.
Fix linear_model.RidgeClassifierCV
Fix metrics.mean_squared_error con squared y multioutput='raw_values'.
Fix metrics.mutual_info_score con puntuaciones negativas.
Fix metrics.confusion_matrix con longitud cero y_true y y_pred
Fix neural_network.MLPClassifier
Fix preprocessing.StandardScaler con partial_fit y entrada dispersa.
Fix preprocessing.Normalizer con norm=”max”
Fix Cualquier modelo que utilice el solucionador svm.libsvm o svm.liblinear, incluyendo svm.LinearSVC, svm.LinearSVR, svm.NuSVC, svm.NuSVR, svm.OneClassSVM, svm.SVC, svm.SVR, linear_model.LogisticRegression.
Fix tree.DecisionTreeClassifier, tree.ExtraTreeClassifier y ensemble.GradientBoostingClassifier así como el método predict de tree.DecisionTreeRegressor, tree.ExtraTreeRegressor, y ensemble.GradientBoostingRegressor y la entrada de sólo lectura float32 en predict, decision_path y predict_proba.

Los detalles están listados en el registro de cambios a continuación.

(Mientras intentamos informar mejor a los usuarios proporcionando esta información, no podemos asegurar que esta lista esté completa.)

Registro de cambios¶

`sklearn.cluster`¶

Efficiency cluster.Birch la implementación del método de predicción evita un alto consumo de memoria calculando la matriz de distancias utilizando un esquema en porciones. #16149 por Jeremie du Boisberranger y Alex Shacked.
Efficiency Major Feature Las partes críticas de cluster.KMeans tienen una implementación más optimizada. El paralelismo es ahora sobre los datos en lugar de sobre las inicializaciones permitiendo una mejor escalabilidad. #11950 por Jeremie du Boisberranger.
Enhancement cluster.KMeans ahora soporta datos dispersos cuando solver = "elkan". #11950 por Jeremie du Boisberranger.
Enhancement cluster.AgglomerativeClustering tiene una implementación más rápida y eficiente en memoria de la agrupación de enlazamiento único. #11514 por Leland McInnes.
Fix cluster.KMeans con algorithm="elkan" ahora converge con tol=0 como con el algorithm="full" por defecto. #16075 por Erich Schubert.
Fix Se corrigió un error en cluster.Birch donde el parámetro n_clusters no podía tener un tipo np.int64. #16484 por Jeremie du Boisberranger.
Fix cluster.AgglomerativeCluClustering añadir error específico cuando la matriz de distancia no es cuadrada y affinity=precomputed. #16257 por Simona Maggio.
API Change El parámetro n_jobs de cluster.KMeans, cluster.SpectralCoclustering y cluster.SpectralBiclustering está obsoleto. Ahora utilizan el paralelismo basado en OpenMP. Para más detalles sobre cómo controlar el número de hilos, consulte nuestras notas sobre Paralelismo. #11950 por Jeremie du Boisberranger.
API Change El parámetro precompute_distances de cluster.KMeans está obsoleto. No tiene ningún efecto. #11950 por Jeremie du Boisberranger.
API Change El parámetro random_state ha sido añadido a cluster.AffinityPropagation. #16801 por @rcwoolston y Chiara Marmo.

`sklearn.compose`¶

Efficiency compose.ColumnTransformer es ahora más rápido cuando se trabaja con dataframes y se utilizan cadenas de caracteres para subconjuntos específicos de datos para transformadores. #16431 por Thomas Fan.
Enhancement El método get_feature_names de compose.ColumnTransformer ahora soporta columnas 'passthrough'', siendo el nombre de la característica el nombre de la columna para un dataframe, o `'xi' para el índice de la columna i. #14048 por Lewis Ball.
Fix El método get_feature_names de compose.ColumnTransformer ahora devuelve resultados correctos cuando uno de los pasos del transformador se aplica en una lista vacía de columnas #15963 por Roman Yurchak.
Fix compose.ColumnTransformer.fit dará error al seleccionar un nombre de columna que no es único en el dataframe. #16431 por Thomas Fan.

`sklearn.datasets`¶

Efficiency datasets.fetch_openml ha reducido el uso de memoria porque ya no almacena el flujo de texto completo del conjunto de datos en memoria. #16084 por Joel Nothman.
Feature datasets.fetch_california_housing ahora soporta datos heterogéneos utilizando pandas al establecer as_frame=True. #15950 por Stephanie Andrews y Reshama Shaikh.
Feature Los cargadores de conjuntos de datos incrustados(embedded ) load_breast_cancer, load_diabetes, load_digits, load_iris, load_linnerud y load_wine ahora soportan la carga como un DataFrame de pandas estableciendo as_frame=True. #15980 por @wconnell y Reshama Shaikh.
Enhancement Se añadió el parámetro return_centers en datasets.make_blobs, que puede utilizarse para devolver los centros de cada conglomerado. #15709 por @shivamgargsya y Venkatachalam N.
Enhancement Las funciones datasets.make_circles y datasets.make_moons aceptan ahora tuplas de dos elementos. #15707 por Maciej J Mikulski.
Fix datasets.make_multilabel_classification ahora genera ValueError para argumentos n_classes < 1 O length < 1. #16006 por Rushabh Vasani.
API Change El StreamHandler fue eliminado de sklearn.logger para evitar el doble registro de mensajes en los casos comunes donde se conecta un manejador al registrador raíz, y para seguir la recomendación de la documentación de registro de Python para que las bibliotecas dejen el manejo de los mensajes de registro a los usuarios y al código de la aplicación. #16451 por Christoph Deil.

`sklearn.decomposition`¶

Enhancement decomposition.NMF y decomposition.non_negative_factorization ahora preserva el dtype float32. #16280 por Jeremie du Boisberranger.
Enhancement TruncatedSVD.transform es ahora más rápido en matrices dispersas csc dadas. #16837 por @wornbb.
Fix decomposition.PCA con un parámetro de punto flotante (float) n_components, elegirá exclusivamente los componentes que expliquen la varianza mayor que n_components. #15669 by Krishna Chaitanya
Fix decomposition.PCA con n_components='mle' ahora maneja correctamente los autovalores pequeños, y no infiere 0 como el número correcto de componentes. #16224 por Lisa Schwetlick, y Gelavizh Ahmadi y Marija Vlajic Wheeler y #16841 por Nicolas Hug.
Fix El método inverse_transform de decomposition.KernelPCA ahora aplica la transformación inversa correcta a los datos transformados. #16655 por Lewis Ball.
Fix Se corrigió el error que provocaba que decomposition.KernelPCA generara a veces un invalid value encountered in multiply`(valor no válido encontrado en la multiplicación) durante `fit. #16718 por Gui Miotto.
Feature Añadido el atributo n_components_ a decomposition.SparsePCA y decomposition.MiniBatchSparsePCA. #16981 por Mateusz Górski.

`sklearn.ensemble`¶

Major Feature ensemble.HistGradientBoostingClassifier y ensemble.HistGradientBoostingRegressor ahora soportan sample_weight. #14696 por Adrin Jalali y Nicolas Hug.
Feature La parada anticipada en ensemble.HistGradientBoostingClassifier y ensemble.HistGradientBoostingRegressor se determina ahora con un nuevo parámetro early_stopping en lugar de n_iter_no_change. El valor por defecto es “auto”, que permite la parada anticipada si hay al menos 10.000 muestras en el conjunto de entrenamiento. #14516 by Johann Faouzi.
Major Feature ensemble.HistGradientBoostingClassifier y ensemble.HistGradientBoostingRegressor ahora soportan restricciones monotónicas, útiles cuando las características se supone que tienen un efecto positivo/negativo en el objetivo. #15582 por Nicolas Hug.
API Change Añadido el indicador booleano verbose a las clases: ensemble.VotingClassifier y ensemble.VotingRegressor. #16069 por Sam Bail, Hanna Bruce MacDonald, Reshama Shaikh, y Chiara Marmo.
API Change Se corrigió un error en ensemble.HistGradientBoostingClassifier y ensemble.HistGradientBoostingRegressor que no respetaba el parámetro max_leaf_nodes si el criterio se alcanzaba al mismo tiempo que el criterio max_depth. #16183 por Nicolas Hug.
Fix Se cambió la convención del parámetro max_depth de ensemble.HistGradientBoostingClassifier y ensemble.HistGradientBoostingRegressor. La profundidad corresponde ahora al número de aristas para ir desde la raíz hasta la hoja más profunda. Ahora se permiten los tocones (árboles con una división). #16182 by Santhosh B
Fix Se corrigió un error en ensemble.BaggingClassifier, ensemble.BaggingRegressor y ensemble.IsolationForest donde el atributo estimators_samples_ no generaba los índices adecuados utilizados durante fit. #16437 por Jin-Hwan CHO.
Fix Se corrigió un error en ensemble.StackingClassifier y ensemble.StackingRegressor donde el argumento sample_weight no se pasaba a cross_val_predict cuando se evaluaban los estimadores base en pliegues de validación cruzada para obtener la entrada del metaestimador. #16539 por Bill DeRose.
Feature Añadida la opción adicional loss="poisson" a ensemble.HistGradientBoostingRegressor, que añade la desviación de Poisson con enlace logarítmico útil para modelar datos de conteo. #16692 por Christian Lorentzen
Fix Se corrigió un error por el que ensemble.HistGradientBoostingRegressor y ensemble.HistGradientBoostingClassifier fallaban con múltiples llamadas a fit cuando warm_start=True, early_stopping=True, y no hay validación establecida. #16663 por Thomas Fan.

`sklearn.feature_extraction`¶

Efficiency feature_extraction.text.CountVectorizer ahora ordena las características después de podarlas por frecuencia de documentos. Esto mejora el rendimiento en conjuntos de datos con grandes vocabularios combinados con min_df o max_df. #15834 por Santiago M. Mola.

`sklearn.feature_selection`¶

Enhancement Se añadió soporte para datos de salida múltiple en feature_selection.RFE y feature_selection.RFECV. #16103 por Divyaprabha M.
API Change Añade feature_selection.SelectorMixin de vuelta a la API pública. #16132 por @trimeta.

`sklearn.gaussian_process`¶

Enhancement gaussian_process.kernels.Matern devuelve el kernel RBF cuando nu=np.inf. #15503 por Sam Dixon.
Fix Se corrigió un error en gaussian_process.GaussianProcessRegressor que provocaba que las desviaciones estándar predichas solo estuvieran entre 0 y 1 cuando no se utilizaba WhiteKernel. #15782 por @plgreenLIRU.

`sklearn.impute`¶

Enhancement impute.IterativeImputer acepta entradas escalares y array-like para max_value y min_value. Las entradas array-like permiten que se especifique un máximo y minuto diferente para cada característica. #16403 por Narendra Mukherjee.
Enhancement impute.SimpleImputer, impute.KNNImputer, y impute.IterativeImputer acepta el dtype entero anulable de pandas con valores faltantes. #16508 por Thomas Fan.

`sklearn.inspection`¶

Feature inspection.partial_dependence y inspection.plot_partial_dependence ahora soportan el método rápido de “recursion” para ensemble.RandomForestRegressor y tree.DecisionTreeRegressor. #15864 por Nicolas Hug.

`sklearn.linear_model`¶

Major Feature Añadidos modelos lineales generalizados (GLM) con distribuciones de error no normales, incluyendo linear_model.PoissonRegressor, linear_model.GammaRegressor y linear_model. TweedieRegressor que utilizan las distribuciones Poisson, Gamma y Tweedie respectivamente. #14300 por Christian Lorentzen, Roman Yurchak, y Olivier Grisel.
Major Feature Soporte de sample_weight en linear_model.ElasticNet y linear_model.Lasso para la matriz densa de características X. #15436 por Christian Lorentzen.
Efficiency linear_model.RidgeCV y linear_model.RidgeClassifierCV ahora no asigna un arreglo potencialmente grande para almacenar coeficientes duales para todos los hiperparámetros durante fit, ni un arreglo para almacenar todas las predicciones de error o LOO a menos que store_cv_values sea True. #15652 por Jérôme Dockès.
Enhancement linear_model.LassoLars y linear_model.Lars ahora soportan un parámetro jitter que añade ruido aleatorio al objetivo. Esto puede ayudar a la estabilidad en algunos casos extremos. #15179 por @angelaambroz.
Fix Se corrigió un error donde si se pasaba un parámetro sample_weight al método fit de linear_model.RANSACRegressor, no se pasaba al base_estimator incluido durante el ajuste del modelo final. #15773 por Jeremy Alexandre.
Fix Añadir el atributo best_score_ a linear_model.RidgeCV y linear_model.RidgeClassifierCV. #15655 por Jérôme Dockès.
Fix Se corrigió un error en linear_model.RidgeClassifierCV para pasar una estrategia de puntuación específica. Antes de que el estimador interno diera la puntuación en lugar de las predicciones. #14848 por Venkatachalam N.
Fix linear_model.LogisticRegression evitará ahora una iteración innecesaria cuando solver='newton-cg' comprobando si es inferior o igual en lugar de estrictamente inferior para el máximo de absgrad y tol en utils.optimize._newton_cg. #16266 por Rushabh Vasani.
API Change Atributos públicos obsoletos standard_coef_, standard_intercept_, average_coef_, y average_intercept_ en linear_model.SGDClassifier, linear_model. SGDRegressor, linear_model.PassiveAggressiveClassifier, linear_model.PassiveAggressiveRegressor. #16261 by Carlos Brandt.
Fix Efficiency linear_model.ARDRegression es más estable y mucho más rápido cuando n_samples > n_features. Ahora puede escalar a cientos de miles de muestras. La corrección de la estabilidad puede implicar cambios en el número de coeficientes distintos de cero y en la salida predicha. #16849 por Nicolas Hug.
Fix Se corrigió un error en linear_model.ElasticNetCV, linear_model.MultiTaskElasticNetCV, linear_model.LassoCV y linear_model.MultiTaskLassoCV dondepor el que el ajuste fallaba cuando se utilizaba el backend loky de joblib. #14264 por Jérémie du Boisberranger.
Efficiency Acelera linear_model.MultiTaskLasso, linear_model.MultiTaskLassoCV, linear_model.MultiTaskElasticNet, linear_model. MultiTaskElasticNetCV evitando las lentas llamadas a BLAS Nivel 2 en arreglos pequeñas #17021 por Alex Gramfort y Mathurin Massias.

`sklearn.metrics`¶

Enhancement metrics.pairwise.pairwise_distances_chunked permite ahora que su reduce_func no tenga valor de retorno, permitiendo operaciones in place. #16397 por Joel Nothman.
Fix Se corrigió un error en metrics.mean_squared_error para no ignorar el argumento squared cuando el argumento multioutput='raw_values'. #16323 por Rushabh Vasani
Fix Se corrigió un error en metrics.mutual_info_score donde se pudieron devolver puntuaciones negativas. #16362 por Thomas Fan.
Fix Se corrigió un error en metrics.confusion_matrix que generaba un error cuando y_true y y_pred tenían longitud cero y labels no era None. Además, se produce un error cuando se da una lista vacía al parámetro labels. #16442 por Kyle Parsons.
API Change Cambiado el formato de los valores en metrics.ConfusionMatrixDisplay.plot y metrics.plot_confusion_matrix para escoger el formato más corto (ya sea “2g” o “d”). #16159 por Rick Mackenbach y Thomas Fan.
API Change A partir de la versión 0.25, metrics.pairwise.pairwise_distances ya no calculará automáticamente el parámetro VI para la distancia de Mahalanobis y el parámetro V para la distancia seuclidean (distancia euclidiana estandarizada) si se pasa Y. El usuario deberá calcular este parámetro en los datos de entrenamiento de su elección y pasarlo a pairwise_distances. #16993 por Joel Nothman.

`sklearn.model_selection`¶

Enhancement model_selection.GridSearchCV y model_selection.RandomizedSearchCV produce información de rastreo de pila en los mensajes de advertencia de fallos de ajuste, además del tipo y los detalles emitidos previamente. #15622 por Gregory Morse.
Fix model_selection.cross_val_predict soporta method="predict_proba" cuando y=None. #15918 por Luca Kubin.
Fix model_selection.fit_grid_point está obsoleto en 0.23 y se eliminará en 0.25. #16401 por Arie Pratama Sutiono

`sklearn.multioutput`¶

Feature multioutput.MultiOutputRegressor.fit y multioutput.MultiOutputClassifier.fit ahora pueden aceptar fit_params para pasar al método estimator.fit de cada paso. #15953 #15959 por Ke Huang.
Enhancement multioutput.RegressorChain ahora soporta fit_params para base_estimator durante fit. #16111 por Venkatachalam N.

`sklearn.naive_bayes`¶

Fix Se muestra un mensaje de error correctamente formateado en naive_bayes.CategoricalNB cuando el número de características en la entrada difiere entre predict y fit. #16090 por Madhura Jayaratne.

`sklearn.neural_network`¶

Efficiency neural_network.MLPClassifier y neural_network.MLPRegressor ha reducido la huella de memoria cuando se utilizan solucionadores estocásticos, 'sgd' o 'adam', y shuffle=True. #14075 por @meyer89.
Fix Aumenta la estabilidad numérica de la función de pérdida logística en neural_network.MLPClassifier recortando las probabilidades. #16117 por Thomas Fan.

`sklearn.inspection`¶

Enhancement inspection.PartialDependenceDisplay ahora expone las líneas de deciles como atributos para que se puedan ocultar o personalizar. #15785 por Nicolas Hug

`sklearn.preprocessing`¶

Feature El argumento drop de preprocessing.OneHotEncoder ahora aceptará el valor “if_binary” y eliminará la primera categoría de cada característica con dos categorías. #16245 por Rushabh Vasani.
Enhancement El ndarray drop_idx_ de preprocessing.OneHotEncoder ahora puede contener None, donde drop_idx_[i] = None significa que no se elimina ninguna categoría para el índice i. #16585 por Chiara Marmo.
Enhancement preprocessing.MaxAbsScaler, preprocessing.MinMaxScaler, preprocessing.StandardScaler, preprocessing.PowerTransformer, preprocessing.QuantileTransformer, preprocessing.RobustScaler ahora soporta el dtype entero anulable de pandas con valores faltantes. #16508 por Thomas Fan.
Efficiency preprocessing.OneHotEncoder es ahora más rápido en la transformación. #15762 por Thomas Fan.
Fix Se corrigió un error en preprocessing.StandardScaler que calculaba incorrectamente las estadísticas al llamar a partial_fit en entradas dispersas. #16466 por Guillaume Lemaitre.
Fix Se corrigió un error en preprocessing.Normalizer con norm=”max”, que no tomaba el valor absoluto de los valores máximos antes de normalizar los vectores. #16632 por Maura Pintor y Battista Biggio.

`sklearn.semi_supervised`¶

Fix semi_supervised.LabelSpreading y semi_supervised.LabelPropagation evita las advertencias de división por cero al normalizar label_distributions_. #15946 por @ngshya.

`sklearn.svm`¶

Fix Efficiency Mejora de los generadores de números aleatorios libsvm y liblinear utilizados para seleccionar aleatoriamente las coordenadas en los algoritmos de descenso de coordenadas. Se utilizaba rand() dependiente de la plataforma C, que sólo es capaz de generar números hasta 32767 en la plataforma Windows (ver esta entrada del blog) y además tiene una pobre potencia de aleatorización como sugiere esta presentación. Fue reemplazado con C++11 mt19937, un Mersenne Twister que genera correctamente números aleatorios de 31bits/63bits en todas las plataformas. Además, el crudo postprocesador «modulo» utilizado para obtener un número aleatorio en un intervalo acotado fue reemplazado por el método Lemire ajustado, como se sugiere en esta entrada del blog. Cualquier modelo que utilice el solucionador svm.libsvm o svm.liblinear, incluyendo svm.LinearSVC, svm.LinearSVR, svm.NuSVC, svm.NuSVR, svm.OneClassSVM, svm.SVC, svm.SVR, linear_model.LogisticRegression, está afectado. En particular, los usuarios pueden esperar una mejor convergencia cuando el número de muestras (LibSVM) o el número de características (LibLinear) es grande. #13511 by Sylvain Marié.
Fix Arreglado el uso de kernels personalizados que no toman entradas flotantes como los kernels de cadena en svm.SVC y svm.SVR. Ten en cuenta que ahora se espera que los kernels personalizados validen su entrada cuando antes recibían arreglos numéricos válidos. #11296 por Alexandre Gramfort y Georgi Peev.
API Change Los atributos probA_ y probB_ de svm.SVR y svm.OneClassSVM ahora están obsoletos ya que no eran útiles. #15558 por Thomas Fan.

`sklearn.tree`¶

Fix El parámetro rotate de tree.plot_tree no se utilizó y ha quedado obsoleto. #15806 por Chiara Marmo.
Fix Corregido el soporte del arreglo de entrada float32 de sólo lectura en los métodos predict, decision_path y predict_proba de tree.DecisionTreeClassifier, tree.ExtraTreeClassifier y ensemble.GradientBoostingClassifier así como el método predict de tree.DecisionTreeRegressor, tree.ExtraTreeRegressor y ensemble.GradientBoostingRegressor. #16331 por Alexandre Batisse.

`sklearn.utils`¶

Major Feature Los estimadores ahora pueden mostrarse con una representación html enriquecida. Esto se puede activar en los cuadernos de Jupyter estableciendo display='diagram' en set_config. El html en bruto puede ser devuelto utilizando utils.estimator_html_repr. #14180 por Thomas Fan.
Enhancement Mejora del mensaje de error en utils.validation.column_or_1d. #15926 por Loïc Estève.
Enhancement añadida advertencia en utils.check_array para DataFrame disperso de pandas. #16021 por Rushabh Vasani.
Enhancement utils.check_array ahora construye una matriz dispersa a partir de un DataFrame de pandas que contiene solo columnas SparseArray. #16728 por Thomas Fan.
Enhancement utils.validation.check_array soporta el tipo de dato entero anulable de pandas con valores faltantes cuando force_all_finite se establece como False o 'allow-nan' en cuyo caso los datos se convierten a valores de punto flotante donde los valores pd.NA son reemplazados por np.nan. Como consecuencia, todos los transformadores sklearn.preprocessing que aceptan entradas numéricas con valores faltantes representados como np.nan ahora también aceptan ser suministrados directamente por dataframes de pandas con columnas de tipo pd.Int* o pd.Uint* que utilizan pd.NA como marcador de valores faltantes. #16508 por Thomas Fan.
API Change Pasar clases a utils.estimator_checks.check_estimator y utils.estimator_checks.parametrize_with_checks está ahora obsoleto, y el soporte para las clases será eliminado en 0.24. Pase instancias en su lugar. #17032 por Nicolas Hug.
API Change Se eliminó la utilidad privada _safe_tags en utils.estimator_checks, por lo tanto todas las etiquetas deben obtenerse a través de estimator._get_tags(). Ten en cuenta que los Mixins como RegressorMixin deben venir antes de las clases base en el MRO para que _get_tags() funcione correctamente. #16950 por Nicolas Hug.
Fix utils.all_estimators ahora sólo devuelve estimadores públicos. #15380 por Thomas Fan.

Varios¶

Major Feature Añade una representación HTML de los estimadores para ser mostrados en un cuaderno de jupyter o jupyter lab. Esta visualización se activa estableciendo la opción display en sklearn.set_config. #14180 por Thomas Fan.
Enhancement scikit-learn ahora funciona con mypy sin errores. #16726 por Roman Yurchak.
API Change La mayoría de los estimadores ahora cuentan con un atributo n_features_in_. Este atributo es igual al número de características pasadas al método fit. Ver SLEP010 para más detalles. #16112 por Nicolas Hug.
API Change Los estimadores tienen ahora una etiqueta requires_y que es False por defecto excepto para los estimadores que heredan de ~sklearn.base.RegressorMixin o ~sklearn.base.ClassifierMixin. Esta etiqueta se utiliza para garantizar que se genere un mensaje de error adecuado cuando se esperaba y pero se pasó None. #16622 por Nicolas Hug.
API Change La configuración por defecto print_changed_only se ha cambiado de False a True. Esto significa que el repr de los estimadores es ahora más conciso y sólo muestra los parámetros cuyo valor por defecto ha sido cambiado al imprimir un estimador. Puede restaurar el comportamiento anterior utilizando sklearn.set_config(print_changed_only=False). Además, ten en cuenta que siempre es posible inspeccionar rápidamente los parámetros de cualquier estimador utilizando est.get_params(deep=False). #17061 por Nicolas Hug.

Colaboradores de código y documentación¶

Gracias a todos los que han contribuido al mantenimiento y la mejora del proyecto desde la versión 0.22, incluyendo:

Abbie Popa, Adrin Jalali, Aleksandra Kocot, Alexandre Batisse, Alexandre Gramfort, Alex Henrie, Alex Itkes, Alex Liang, alexshacked, Alonso Silva Allende, Ana Casado, Andreas Mueller, Angela Ambroz, Ankit810, Arie Pratama Sutiono, Arunav Konwar, Baptiste Maingret, Benjamin Beier Liu, bernie gray, Bharathi Srinivasan, Bharat Raghunathan, Bibhash Chandra Mitra, Brian Wignall, brigi, Brigitta Sipőcz, Carlos H Brandt, CastaChick, castor, cgsavard, Chiara Marmo, Chris Gregory, Christian Kastner, Christian Lorentzen, Corrie Bartelheimer, Daniël van Gelder, Daphne, David Breuer, david-cortes, dbauer9, Divyaprabha M, Edward Qian, Ekaterina Borovikova, ELNS, Emily Taylor, Erich Schubert, Eric Leung, Evgeni Chasnovski, Fabiana, Facundo Ferrín, Fan, Franziska Boenisch, Gael Varoquaux, Gaurav Sharma, Geoffrey Bolmier, Georgi Peev, gholdman1, Gonthier Nicolas, Gregory Morse, Gregory R. Lee, Guillaume Lemaitre, Gui Miotto, Hailey Nguyen, Hanmin Qin, Hao Chun Chang, HaoYin, Hélion du Mas des Bourboux, Himanshu Garg, Hirofumi Suzuki, huangk10, Hugo van Kemenade, Hye Sung Jung, indecisiveuser, inderjeet, J-A16, Jérémie du Boisberranger, Jin-Hwan CHO, JJmistry, Joel Nothman, Johann Faouzi, Jon Haitz Legarreta Gorroño, Juan Carlos Alfaro Jiménez, judithabk6, jumon, Kathryn Poole, Katrina Ni, Kesshi Jordan, Kevin Loftis, Kevin Markham, krishnachaitanya9, Lam Gia Thuan, Leland McInnes, Lisa Schwetlick, lkubin, Loic Esteve, lopusz, lrjball, lucgiffon, lucyleeow, Lucy Liu, Lukas Kemkes, Maciej J Mikulski, Madhura Jayaratne, Magda Zielinska, maikia, Mandy Gu, Manimaran, Manish Aradwad, Maren Westermann, Maria, Mariana Meireles, Marie Douriez, Marielle, Mateusz Górski, mathurinm, Matt Hall, Maura Pintor, mc4229, meyer89, m.fab, Michael Shoemaker, Michał Słapek, Mina Naghshhnejad, mo, Mohamed Maskani, Mojca Bertoncelj, narendramukherjee, ngshya, Nicholas Won, Nicolas Hug, nicolasservel, Niklas, @nkish, Noa Tamir, Oleksandr Pavlyk, olicairns, Oliver Urs Lenz, Olivier Grisel, parsons-kyle-89, Paula, Pete Green, Pierre Delanoue, pspachtholz, Pulkit Mehta, Qizhi Jiang, Quang Nguyen, rachelcjordan, raduspaimoc, Reshama Shaikh, Riccardo Folloni, Rick Mackenbach, Ritchie Ng, Roman Feldbauer, Roman Yurchak, Rory Hartong-Redden, Rüdiger Busche, Rushabh Vasani, Sambhav Kothari, Samesh Lakhotia, Samuel Duan, SanthoshBala18, Santiago M. Mola, Sarat Addepalli, scibol, Sebastian Kießling, SergioDSR, Sergul Aydore, Shiki-H, shivamgargsya, SHUBH CHATTERJEE, Siddharth Gupta, simonamaggio, smarie, Snowhite, stareh, Stephen Blystone, Stephen Marsh, Sunmi Yoon, SylvainLan, talgatomarov, tamirlan1, th0rwas, theoptips, Thomas J Fan, Thomas Li, Thomas Schmitt, Tim Nonner, Tim Vink, Tiphaine Viard, Tirth Patel, Titus Christian, Tom Dupré la Tour, trimeta, Vachan D A, Vandana Iyer, Venkatachalam N, waelbenamara, wconnell, wderose, wenliwyan, Windber, wornbb, Yu-Hang «Maxin» Tang