Versión 0.13.1¶

23 de febrero de 2013

La versión 0.13.1 sólo corrige algunos errores y no añade ninguna nueva funcionalidad.

Registro de cambios¶

Se ha corregido un error de prueba causado por la función cross_validation.train_test_split que era interpretada como una prueba por Yaroslav Halchenko.
Se ha corregido un error en la reasignación de clusters pequeños en la cluster.MiniBatchKMeans de Gael Varoquaux.
Corregido el valor predeterminado de gamma en decomposition.KernelPCA por Lars Buitinck.
Actualizado joblib a 0.7.0d por Gael Varoquaux.
Corregido el escalado de la desviación en ensemble.GradientBoostingClassifier de Peter Prettenhofer.
Mejor desempate en multiclass.OneVsOneClassifier por Andreas Müller.
Otras pequeñas mejoras en las pruebas y la documentación.

Personas¶

Lista de colaboradores de la versión 0.13.1 por número de commits.

16 Lars Buitinck
12 Andreas Müller
8 Gael Varoquaux
5 Robert Marchman
3 Peter Prettenhofer
2 Hrishikesh Huilgolkar
1 Bastiaan van den Berg
1 Diego Molla
1 Gilles Louppe
1 Mathieu Blondel
1 Nelle Varoquaux
1 Rafael Cunha de Almeida
1 Rolando Espinoza La fuente
1 Vlad Niculae
1 Yaroslav Halchenko

Versión 0.13¶

21 de enero de 2013

Nuevas clases de estimador¶

dummy.DummyClassifier y dummy.DummyRegressor, dos predictores independientes de datos por Mathieu Blondel. Útil para comprobar el saneamiento de tus estimadores. Ver Estimadores de prueba en el manual de usuario. Soporte multisalida añadido por Arnaud Joly.
decomposition.FactorAnalysis, un transformador que implementa el análisis factorial clásico, por Christian Osendorfer y Alexandre Gramfort. Ver Análisis de factores en el manual de usuario.
feature_extraction.FeatureHasher, un transformador que implementa el «truco del hashing» para la extracción rápida y de baja memoria de características a partir de campos de cadenas por Lars Buitinck y feature_extraction.text.HashingVectorizer para documentos de texto por Olivier Grisel Ver Hashing de características y Vectorizando un corpus de texto grande con el truco de hashing para la documentación y ejemplos de uso.
pipeline.FeatureUnion, un transformador que concatena resultados de varios otros transformadores de Andreas Müller. Ver FeatureUnion: espacios de características compuestas en el manual de usuario.
random_projection.GaussianRandomProjection, random_projection.SparseRandomProjection y la función random_projection.johnson_lindenstrauss_min_dim. Los dos primeros son transformadores que implementan la matriz de proyección aleatoria gaussiana y dispersa de Olivier Grisel y Arnaud Joly. Ver Proyección aleatoria en el manual de usuario.
kernel_approximation.Nystroem, un transformador para aproximar núcleos arbitrarios de Andreas Müller. Ver Método Nystroem para la aproximación de núcleos en el manual de usuario.
preprocessing.OneHotEncoder, un transformador que calcula codificaciones binarias de características categóricas, por Andreas Müller. Ver Codificación de características categóricas en el manual de usuario.
linear_model.PassiveAggressiveClassifier y linear_model.PassiveAggressiveRegressor, predictores que implementan una eficiente optimización estocástica para modelos lineales de Rob Zinkov y Mathieu Blondel. Ver Algoritmos pasivo-agresivos en el manual de usuario.
ensemble.RandomTreesEmbedding, un transformador para crear representaciones dispersas de alta dimensión utilizando conjuntos de árboles totalmente aleatorios de Andreas Müller. Ver Incrustación de Arboles Totalmente Aleatorios en el manual de usuario.
manifold.SpectralEmbedding y la función manifold.spectral_embedding, que implementa la transformación «laplacian eigenmaps» para la reducción de dimensionalidad no lineal de Wei Li. Ver Embedding Espectral en el manual de usuario.
isotonic.IsotonicRegression por Fabian Pedregosa, Alexandre Gramfort y Nelle Varoquaux,

Registro de cambios¶

metrics.zero_one_loss (antes metrics.zero_one) tiene ahora la opción de salida normalizada que informa de la fracción de clasificaciones erróneas, en lugar del número bruto de clasificaciones erróneas. Por Kyle Beauchamp.
tree.DecisionTreeClassifier y todos los modelos de conjunto derivados soportan ahora la ponderación de muestras, por Noel Dawe y Gilles Louppe.
Mejora de la velocidad al utilizar muestras bootstrap en bosques de árboles aleatorios, por Peter Prettenhofer y Gilles Louppe.
Gráficos de dependencia parcial para Gradient Tree Boosting en ensemble.partial_dependence.partial_dependence por Peter Prettenhofer. Ver Gráficos de Dependencia Parcial y de Expectativa Condicional Individual para un ejemplo.
La tabla de contenidos del sitio web ha sido ampliada por Jaques Grobler.
feature_selection.SelectPercentile ahora rompe los empates de forma determinista en lugar de devolver todas las características igualmente clasificadas.
feature_selection.SelectKBest y feature_selection.SelectPercentile son más estables numéricamente, ya que utilizan puntuaciones, en lugar de valores p, para clasificar los resultados. Esto significa que, en ocasiones, pueden seleccionar características diferentes a las anteriores.
El ajuste de la regresión de crestas y la clasificación de crestas con el solucionador sparse_cg ya no tiene complejidad de memoria cuadrática, por Lars Buitinck y Fabian Pedregosa.
La regresión de crestas y la clasificación de crestas ahora soportan un nuevo solucionador rápido llamado lsqr, por Mathieu Blondel.
Aceleración de metrics.precision_recall_curve por Conrad Lee.
Se ha añadido soporte para la lectura/escritura de archivos svmlight con atributo de preferencia por pares (qid en el formato de archivo svmlight) en datasets.dump_svmlight_file y datasets.load_svmlight_file por Fabian Pedregosa.
Más rápido y robusto metrics.confusion_matrix y Evaluación del rendimiento del análisis de conglomerados (agrupamiento) por Wei Li.
cross_validation.cross_val_score ahora funciona con núcleos precalculados y matrices de afinidad, por Andreas Müller.
Algoritmo LARS hecho más estable numéricamente con heurística para dejar de lado los regresores demasiado correlacionados, así como para detener el camino cuando el ruido numérico se vuelve predominante, por Gael Varoquaux.
Implementación más rápida de metrics.precision_recall_curve por Conrad Lee.
Nuevo núcleo metrics.chi2_kernel de Andreas Müller, utilizado a menudo en aplicaciones de visión por computadora.
Corrección de un error de larga duración en naive_bayes.BernoulliNB corregido por Shaun Jackman.
Implementado predict_proba en multiclass.OneVsRestClassifier, por Andrew Winterman.
Mejora de la coherencia en el refuerzo del gradiente: los estimadores ensemble.GradientBoostingRegressor y ensemble.GradientBoostingClassifier utilizan el estimador tree.DecisionTreeRegressor en lugar de la estructura de datos tree._tree.Tree de Arnaud Joly.
Se ha corregido una excepción de punto flotante en el módulo decision trees, por Seberg.
Fix metrics.roc_curve falla cuando y_true tiene sólo una clase por Wei Li.
Añade la función metrics.mean_absolute_error que calcula el error medio absoluto. Las métricas metrics.mean_squared_error, metrics.mean_absolute_error y metrics.r2_score soportan la salida múltiple de Arnaud Joly.
Corregido el soporte de class_weight en svm.LinearSVC y linear_model.LogisticRegression por Andreas Müller. El significado de class_weight fue invertido, ya que un peso erróneo significaba menos positivos de una clase determinada en versiones anteriores.
Mejorar la documentación narrativa y la consistencia en sklearn.metrics para las métricas de regresión y clasificación por Arnaud Joly.
Se ha corregido un error en sklearn.svm.SVC cuando se utilizan matrices csr con índices no ordenados por Xinfan Meng y Andreas Müller.
MiniBatchKMeans: Añade la reasignación aleatoria de los centros de los conglomerados con pequeñas observaciones adjuntas, por Gael Varoquaux.

Resumen de cambios en la API¶

Se ha cambiado el nombre de todas las apariciones de n_atoms a n_components por coherencia. Esto se aplica a decomposition.DictionaryLearning, decomposition.MiniBatchDictionaryLearning, decomposition.dict_learning, decomposition.dict_learning_online.
Se ha cambiado el nombre de todas las apariciones de max_iters a max_iter por coherencia. Esto se aplica a semi_supervised.LabelPropagation y semi_supervised.label_propagation.LabelSpreading.
Se ha cambiado el nombre de todas las apariciones de learn_rate a learning_rate por coherencia en ensemble.BaseGradientBoosting y ensemble.GradientBoostingRegressor.
El módulo sklearn.linear_model.sparse ha desaparecido. El soporte de matrices dispersas ya estaba integrado en los modelos lineales «normales».
sklearn.metrics.mean_square_error, que devolvía incorrectamente el error acumulado, ha sido eliminado. Utilice mean_squared_error en su lugar.
Ya no es posible pasar los parámetros class_weight a los métodos fit. En su lugar, pásalos a los constructores de estimadores.
Los GMM ya no tienen los métodos decode y rvs. Utilice en su lugar los métodos score, predict o sample.
La opción de ajuste solver en la regresión y clasificación Ridge está ahora obsoleta y será eliminada en la v0.14. Utiliza la opción del constructor en su lugar.
feature_extraction.text.DictVectorizer ahora devuelve matrices dispersas en el formato CSR, en lugar de COO.
Se ha cambiado el nombre de k en cross_validation.KFold y cross_validation.StratifiedKFold a n_folds, se ha cambiado el nombre de n_bootstraps a n_iter en cross_validation.Bootstrap.
Se ha cambiado el nombre de todas las apariciones de n_iteraciones a n_iter por coherencia. Esto se aplica a cross_validation.ShuffleSplit, cross_validation.StratifiedShuffleSplit, utils.randomized_range_finder y utils.randomized_svd.
Se ha sustituido rho en linear_model.ElasticNet y linear_model.SGDClassifier por l1_ratio. El parámetro rho tenía diferentes significados; se ha introducido l1_ratio para evitar confusiones. Tiene el mismo significado que antes rho en linear_model.ElasticNet y (1-rho) en linear_model.SGDClassifier.
linear_model.LassoLars y linear_model.Lars ahora almacenan una lista de trayectorias en el caso de múltiples objetivos, en lugar de un arreglo de trayectorias.
El atributo gmm de hmm.GMMHMM fue renombrado a gmm_ para adherirse más estrictamente a la API.
cluster.spectral_embedding was moved to manifold.spectral_embedding.
Renombrado eig_tol en manifold.spectral_embedding, cluster.SpectralClustering a eigen_tol, renombrado mode a eigen_solver.
Se ha cambiado el nombre de mode en manifold.spectral_embedding y cluster.SpectralClustering por eigen_solver.
Los atributos classes_ y n_classes_ de tree.DecisionTreeClassifier y todos los modelos de conjunto derivados son ahora planos en el caso de problemas de una sola salida y anidados en el caso de problemas de salida múltiple.
El atributo estimators_ de ensemble.gradient_boosting.GradientBoostingRegressor y ensemble.gradient_boosting.GradientBoostingClassifier es ahora una matriz de :class:”tree.DecisionTreeRegressor”.
Se ha cambiado el nombre de chunk_size a batch_size en decomposition.MiniBatchDictionaryLearning y decomposition.MiniBatchSparsePCA por coherencia.
svm.SVC y svm.NuSVC proporcionan ahora un atributo classes_ y soportan dtypes arbitrarios para las etiquetas y. Además, el tipo de datos devuelto por predict refleja ahora el tipo de datos de y durante fit (antes era np.float).
Se ha cambiado el tamaño de la prueba por defecto en cross_validation.train_test_split a None, se ha añadido la posibilidad de inferir el test_size a partir del train_size en cross_validation.ShuffleSplit y cross_validation.StratifiedShuffleSplit.
Se ha cambiado el nombre de la función sklearn.metrics.zero_one a sklearn.metrics.zero_one_loss. Tenga en cuenta que el comportamiento por defecto en sklearn.metrics.zero_one_loss es diferente al de sklearn.metrics.zero_one: normalize=False se cambia a normalize=True.
Se ha cambiado el nombre de la función metrics.zero_one_score a metrics.accuracy_score.
datasets.make_circles tiene ahora el mismo número de puntos interiores y exteriores.
En los clasificadores Naive Bayes, el parámetro class_prior se ha movido de fit a __init__.

Personas¶

Lista de colaboradores de la versión 0.13.1 por número de commits.

364 Andreas Müller

143 Arnaud Joly

137 Peter Prettenhofer

131 Gael Varoquaux

117 Mathieu Blondel

108 Lars Buitinck

106 Wei Li

101 Olivier Grisel

65 Vlad Niculae

54 Gilles Louppe

40 Jaques Grobler

38 Alexandre Gramfort

30 Rob Zinkov

19 Aymeric Masurelle

18 Andrew Winterman

17 Fabian Pedregosa

17 Nelle Varoquaux

16 Christian Osendorfer

14 Daniel Nouri

13 Virgile Fritsch

13 syhw

12 Satrajit Ghosh

10 Corey Lynch

10 Kyle Beauchamp

9 Brian Cheung

9 Immanuel Bayer

9 mr.Shu

8 Conrad Lee

8 James Bergstra

7 Tadej Janež

6 Brian Cajes

6 Jake Vanderplas

6 Michael

6 Noel Dawe

6 Tiago Nunes

6 cow

5 Anze

5 Shiqiao Du

4 Christian Jauvin

4 Jacques Kvam

4 Richard T. Guy

4 Robert Layton

3 Alexandre Abraham

3 Doug Coleman

3 Scott Dickerson

2 ApproximateIdentity

2 John Benediktsson

2 Mark Veronda

2 Matti Lyra

2 Mikhail Korobov

2 Xinfan Meng

1 Alejandro Weinstein

1 Alexandre Passos

1 Christoph Deil

1 Eugene Nizhibitsky

1 Kenneth C. Arnold

1 Luis Pedro Coelho

1 Miroslav Batchkarov

1 Pavel

1 Sebastian Berg

1 Shaun Jackman

1 Subhodeep Moitra

1 bob

1 dengemann

1 emanuele

1 x006