Referencia de la API

Esta es la referencia de clase y función de scikit-learn. Por favor, consulta el manual completo del usuario para obtener más detalles, ya que las especificaciones originales de clase y función pueden no ser suficientes para dar directrices completas sobre sus usos. Para referencias sobre conceptos repetidos a través del API, ver Glosario de Términos Comunes y Elementos de la API.

sklearn.base: Clases base y funciones de utilidad

Clases base para todos los estimadores.

Clases base

base.BaseEstimator

Clase base para todos los estimadores en scikit-learn.

base.BiclusterMixin

Clase mixin para todos los estimadores bicluster en scikit-learn.

base.ClassifierMixin

Clase mixin para todos los clasificadores en scikit-learn.

base.ClusterMixin

Clase mixin para todos los estimadores de conglomerados en scikit-learn.

base.DensityMixin

Clase mixin para todos los estimadores de densidad en scikit-learn.

base.RegressorMixin

Clase mixin para todos los estimadores de regresión en scikit-learn.

base.TransformerMixin

Clase mixin para todos los transformadores en scikit-learn.

feature_selection.SelectorMixin

Transformador mixin que realiza la selección de características dada una máscara de soporte

Funciones

base.clone

Construye un nuevo estimador sin ajustar con los mismos parámetros.

base.is_classifier

Devuelve True si el estimador dado es (probablemente) un clasificador.

base.is_regressor

Devuelve True si el estimador dado es (probablemente) un regresor.

config_context

Gestor de contexto para la configuración global de scikit-learn

get_config

Recupera los valores actuales de configuración establecidos por set_config

set_config

Establecer la configuración global de scikit-learn

show_versions

Imprimir información útil de depuración»

sklearn.calibration: Probability Calibration

Calibración de probabilidades predichas.

Manual de usuario: Consulte la sección Calibración de probabilidad para más detalles.

calibration.CalibratedClassifierCV

Calibración de la probabilidad con regresión isotónica o regresión logística.

calibration.calibration_curve

Calcula las probabilidades verdaderas y predichas para una curva de calibración.

sklearn.cluster: Análisis de Conglomerados

El módulo sklearn.cluster reúne algoritmos populares de análisis de conglomerados no supervisados.

Manual de usuario: Vea las secciones Análisis de conglomerados (Agrupamiento) y Biclustering para más detalles.

Clases

cluster.AffinityPropagation

Realiza la agrupación de datos por propagación de la afinidad.

cluster.AgglomerativeClustering

Análisis de Conglomerados Aglomerativo

cluster.Birch

Implementa el algoritmo de agrupación de Birch.

cluster.DBSCAN

Realiza el agrupamiento DBSCAN a partir de un arreglo vectorial o una matriz de distancia.

cluster.FeatureAgglomeration

Aglomeración por características.

cluster.KMeans

Agrupamiento por K-Medias.

cluster.MiniBatchKMeans

Agrupamiento por K-Medias en mini lotes.

cluster.MeanShift

Agrupamiento por media desplazada usando un kernel plano.

cluster.OPTICS

Estimar la estructura de agrupamiento de un arreglo vectorial.

cluster.SpectralClustering

Aplicar la agrupación a una proyección del Laplaciano normalizado.

cluster.SpectralBiclustering

Biclustering espectral (Kluger, 2003).

cluster.SpectralCoclustering

Algoritmo de Co-Clustering espectral (Dhillon, 2001).

Funciones

cluster.affinity_propagation

Realiza la agrupación de datos por propagación de la afinidad.

cluster.cluster_optics_dbscan

Realiza la extracción de DBSCAN para un épsilon arbitrario.

cluster.cluster_optics_xi

Extraer automáticamente los conglomerados según el método Xi-steep.

cluster.compute_optics_graph

Calcula el grafo de accesibilidad de OPTICS.

cluster.dbscan

Realiza el agrupamiento DBSCAN a partir de un arreglo vectorial o una matriz de distancia.

cluster.estimate_bandwidth

Estimar el ancho de banda a utilizar con el algoritmo de media-desplazada.

cluster.k_means

Algoritmo de agrupamiento K-medias.

cluster.kmeans_plusplus

Inicializa n_clusters semillas de acuerdo a k-medias++

cluster.mean_shift

Realiza un agrupamiento de datos por media desplazada usando un kernel plano.

cluster.spectral_clustering

Aplicar la agrupación a una proyección del Laplaciano normalizado.

cluster.ward_tree

Agrupamiento de Ward basado en una matriz de características.

sklearn.compose: Estimadores compuestos

Metaestimadores para construir modelos compuestos con transformadores

Además de su contenido actual, este módulo albergará eventualmente versiones renovadas de Pipeline y FeatureUnion.

Manual de usuario: Consulte la sección Pipelines y estimadores compuestos para más detalles.

compose.ColumnTransformer

Aplica transformadores a las columnas de un array o un DataFrame de pandas.

compose.TransformedTargetRegressor

Metaestimador para la regresión de un objetivo transformado.

compose.make_column_transformer

Construye un ColumnTransformer a partir de los transformadores dados.

compose.make_column_selector

Crea un invocable para seleccionar columnas que se usarán con ColumnTransformer.

sklearn.covariance: Estimadores de Covarianza

El módulo sklearn.covariance incluye métodos y algoritmos para la estimación robusta de la covarianza de características dado un conjunto de puntos. También se estima la matriz de precisión definida como la inversa de la covarianza. La estimación de la covarianza está estrechamente relacionada con la teoría de los Modelos Gaussianos de Grafos.

Manual de usuario: Consulte la sección Estimación de covarianza para más detalles.

covariance.EmpiricalCovariance

Estimador de covarianza de máxima verosimilitud

covariance.EllipticEnvelope

Un objeto para detectar valores atípicos en un conjunto de datos con distribución Gaussiana.

covariance.GraphicalLasso

Estimación dispersa de la covarianza inversa con un estimador de penalidad l1.

covariance.GraphicalLassoCV

Covarianza inversa dispersa con elección de validación cruzada de la penalidad l1.

covariance.LedoitWolf

Estimador Ledoit-Wolf

covariance.MinCovDet

Determinante de Covarianza Mínima (DCM): estimador robusto de la covarianza.

covariance.OAS

Estimador de Reducción por Aproximación de Oráculo

covariance.ShrunkCovariance

Estimador de covarianza con reducción

covariance.empirical_covariance

Calcula el estimador de covarianza de Máxima Verosimilitud

covariance.graphical_lasso

estimador de covarianza l1-penalizado

covariance.ledoit_wolf

Estima la matriz de covarianza reducida Ledoit-Wolf.

covariance.oas

Estima la covarianza con el algoritmo de Reducción por Aproximación de Oráculo.

covariance.shrunk_covariance

Calcula una matriz de covarianza reducida sobre la diagonal

sklearn.cross_decomposition: Cross decomposition

Manual de usuario: Consulte la sección Descomposición cruzada para más detalles.

cross_decomposition.CCA

Análisis de Correlación Canónica, también conocido como PLS «Modo B».

cross_decomposition.PLSCanonical

Transformador y regresor de Mínimos Cuadrados Parciales.

cross_decomposition.PLSRegression

Regresión MCP

cross_decomposition.PLSSVD

DVS de Mínimos Cuadrados Parciales.

sklearn.datasets: Conjuntos de datos

El módulo sklearn.datasets incluye utilidades para cargar conjuntos de datos, incluyendo métodos para cargar y obtener conjuntos de datos de referencia populares. También incluye algunos generadores de datos artificiales.

Manual de usuario: Consulte la sección Herramientas de carga de conjuntos de datos para más detalles.

Cargadores

datasets.clear_data_home

Eliminar todo el contenido del caché de la carpeta del usuario.

datasets.dump_svmlight_file

Volcar el conjunto de datos en el formato de archivos svmlight / libsvm.

datasets.fetch_20newsgroups

Carga los nombres de archivo y datos del conjunto de datos 20 newsgroups (clasificación).

datasets.fetch_20newsgroups_vectorized

Cargar y vectorizar el conjunto de datos 20 newsgroups (clasificación).

datasets.fetch_california_housing

Cargar el conjunto de datos California housing (regresión).

datasets.fetch_covtype

Cargar el conjunto de datos covertype (clasificación).

datasets.fetch_kddcup99

Cargar el conjunto de datos kddcup99 (clasificación).

datasets.fetch_lfw_pairs

Cargar el conjunto de datos de parejas Labeled Faces in the Wild (LFW) (clasificación).

datasets.fetch_lfw_people

Cargue el conjunto de datos de personas Labeled Faces in the Wild (LFW) (clasificación).

datasets.fetch_olivetti_faces

Cargar el conjunto de datos de caras Olivetti de AT&T (clasificación).

datasets.fetch_openml

Recuperar un conjunto de datos de openml por el nombre o el id del conjunto de datos.

datasets.fetch_rcv1

Cargue el conjunto de datos multietiqueta RCV1 (clasificación).

datasets.fetch_species_distributions

Cargador para el conjunto de datos de distribución de especies de Phillips et.

datasets.get_data_home

Devuelve la ruta de la carpeta de datos de scikit-learn.

datasets.load_boston

Cargar y devolver el conjunto de datos del precio de la vivienda en boston (regresión).

datasets.load_breast_cancer

Cargar y devolver el conjunto de datos sobre el cáncer de mama en wisconsin (clasificación).

datasets.load_diabetes

Carga y devolver el conjunto de datos diabetes (regresión).

datasets.load_digits

Cargar y devolver el conjunto de datos digits (regresión).

datasets.load_files

Cargar archivos de texto con categorías como nombres de subcarpetas.

datasets.load_iris

Cargar y devolver el conjunto de datos de iris (clasificación).

datasets.load_linnerud

Carga y devuelve el conjunto de datos linnerud de ejercicio físico.

datasets.load_sample_image

Carga un arreglo numpy de una imagen de muestra

datasets.load_sample_images

Cargar imágenes de muestra para la manipulación de imágenes.

datasets.load_svmlight_file

Cargar conjuntos de datos en el formato svmlight / libsvm en la matriz dispersa CSR

datasets.load_svmlight_files

Cargar un conjunto de datos a partir de varios archivos en formato SVMlight

datasets.load_wine

Cargar y devolver el conjunto de datos wine (clasificación).

Generador de muestras

datasets.make_biclusters

Generar un arreglo con estructura diagonal de bloque constante para biclustering.

datasets.make_blobs

Generar manchas o regiones gaussianas isotrópicas para agrupamiento.

datasets.make_checkerboard

Generar un array con estructura de tablero de bloques para biclustering.

datasets.make_circles

Hacer un círculo grande que contenga un círculo más pequeño en 2d.

datasets.make_classification

Generar un problema aleatorio de clasificación de n-clases.

datasets.make_friedman1

Generar el problema de regresión «Friedman #1».

datasets.make_friedman2

Generar el problema de regresión «Friedman #2».

datasets.make_friedman3

Generar el problema de regresión «Friedman #3».

datasets.make_gaussian_quantiles

Generar una gaussiana isotrópica y etiquetar las muestras por cuantiles.

datasets.make_hastie_10_2

Genera datos para la clasificación binaria utilizada en Hastie et al. 2009, Ejemplo 10.2.

datasets.make_low_rank_matrix

Generar una matriz de rango mayoritariamente bajo con valores singulares en forma de campana.

datasets.make_moons

Crea dos medios círculos superpuestos.

datasets.make_multilabel_classification

Generar un problema de clasificación aleatoria multietiqueta.

datasets.make_regression

Generar un problema aleatorio de regresión.

datasets.make_s_curve

Generar un conjunto de datos de curvas S.

datasets.make_sparse_coded_signal

Genera una señal como una combinación dispersa de elementos de diccionario.

datasets.make_sparse_spd_matrix

Genera una matriz dispersa simétrica definida positiva.

datasets.make_sparse_uncorrelated

Generar un problema aleatorio de regresión con un diseño disperso no correlacionado.

datasets.make_spd_matrix

Genera una matriz aleatoria simétrica y positiva definida.

datasets.make_swiss_roll

Genera un conjunto de datos swiss roll.

sklearn.descomposición: Descomposición matricial

El módulo sklearn.decomposition incluye algoritmos de descomposición matricial, incluyendo entre otros PCA, NMF o ICA. La mayoría de los algoritmos de este módulo pueden considerarse técnicas de reducción de la dimensionalidad.

Manual de usuario: Consulte la sección Descomposición de señales en componentes (problemas de factorización de matrices) para más detalles.

decomposition.DictionaryLearning

Aprendizaje de diccionario

decomposition.FactorAnalysis

Análisis Factorial (AF).

decomposition.FastICA

FastICA: un algoritmo rápido para el Análisis de Componentes Independientes.

decomposition.IncrementalPCA

Análisis de componentes principales incremental (IPCA).

decomposition.KernelPCA

Análisis de componentes principales basado en Kernel (KPCA).

decomposition.LatentDirichletAllocation

Asignación de Dirichlet latente con el algoritmo variacional de Bayes en línea

decomposition.MiniBatchDictionaryLearning

Aprendizaje de diccionario por mini lotes

decomposition.MiniBatchSparsePCA

Análisis de Componentes Principales disperso por mini lotes

decomposition.NMF

Factorización matricial no-negativa (NMF o NNMF).

decomposition.PCA

Análisis de componentes principales (PCA).

decomposition.SparsePCA

Análisis de componentes principales disperso (SparsePCA).

decomposition.SparseCoder

Codificación dispersa

decomposition.TruncatedSVD

Reducción de dimensionalidad usando una SVD truncado (también conocido como LSA).

decomposition.dict_learning

Resuelve un problema de factorización de una matriz de aprendizaje de diccionarios.

decomposition.dict_learning_online

Resuelve un problema de factorización en línea de una matriz de aprendizaje de diccionarios.

decomposition.fastica

Realiza un Análisis Rápido de Componentes Independientes.

decomposition.non_negative_factorization

Realiza la Factorización de una Matriz no-Negativa (NMF).

decomposition.sparse_encode

Codificación dispersa

sklearn.discriminant_analysis: Análisis Discriminante

Análisis Discriminante Lineal y Análisis Discriminante Cuadrático

Manual de usuario: Consulte la sección Análisis Discriminante Lineal y Cuadrático para más detalles.

discriminant_analysis.LinearDiscriminantAnalysis

Análisis Discriminante Lineal

discriminant_analysis.QuadraticDiscriminantAnalysis

Análisis Discriminante Cuadrático

sklearn.dummy: Estimadores ficticios

Manual de usuario: Consulte la sección Métricas y puntuación: cuantificar la calidad de las predicciones para más detalles.

dummy.DummyClassifier

DummyClassifier es un clasificador que hace predicciones usando reglas simples.

dummy.DummyRegressor

DummyRegressor es un regresor que hace predicciones utilizando reglas simples.

sklearn.ensemble: Métodos Ensemble

El módulo sklearn.ensemble incluye métodos basados en combinaciones de métodos para la clasificación, regresión y detección de anomalías.

Manual de usuario: Consulte la sección Métodos combinados para más detalles.

ensemble.AdaBoostClassifier

Un clasificador AdaBoost.

ensemble.AdaBoostRegressor

Un regresor de AdaBoost.

ensemble.BaggingClassifier

Un clasificador Bagging (Agregación bootstrap).

ensemble.BaggingRegressor

Un regresor Bagging.

ensemble.ExtraTreesClassifier

Un clasificador extra-árboles.

ensemble.ExtraTreesRegressor

Un regresor extra-árbol.

ensemble.GradientBoostingClassifier

Potenciación de gradiente para clasificación.

ensemble.GradientBoostingRegressor

Potenciación de Gradiente para regresión.

ensemble.IsolationForest

Algoritmo de Aislamiento de Bosques.

ensemble.RandomForestClassifier

Un clasificador de bosque aleatorio.

ensemble.RandomForestRegressor

Un regresor de bosque aleatorio.

ensemble.RandomTreesEmbedding

Una combinación de árboles totalmente aleatorios.

ensemble.StackingClassifier

Pila de estimadores con un clasificador final.

ensemble.StackingRegressor

Pila de estimadores con un regresor final.

ensemble.VotingClassifier

Clasificador de regla mayoritaria/voto suave para estimadores no ajustados.

ensemble.VotingRegressor

Regresor de predicción de voto para estimadores no ajustados.

ensemble.HistGradientBoostingRegressor

Árbol de Regresión de Potenciación de Gradiente basado en histograma.

ensemble.HistGradientBoostingClassifier

Árbol de Clasificación de Potenciación de Gradiente basado en histograma.

sklearn.exceptions: Excepciones y advertencias

El módulo sklearn.exceptions incluye todas las advertencias y clases de error personalizadas utilizadas en scikit-learn.

exceptions.ConvergenceWarning

Advertencia personalizada para capturar problemas de convergencia

exceptions.DataConversionWarning

Advertencia utilizada para notificar conversiones implícitas de datos que ocurren en el código.

exceptions.DataDimensionalityWarning

Advertencia personalizada para notificar posibles problemas con la dimensionalidad de los datos.

exceptions.EfficiencyWarning

Advertencia utilizada para notificar al usuario de un cálculo ineficiente.

exceptions.FitFailedWarning

Clase de advertencia usada si hay un error mientras se ajusta el estimador.

exceptions.NotFittedError

Clase de excepción que se eleva si se utiliza el estimador antes del ajuste.

exceptions.UndefinedMetricWarning

Advertencia usada cuando la métrica no es válida

sklearn.experimental: Experimental

El módulo sklearn.experimental proporciona módulos que se pueden importar para permitir el uso de características o estimadores experimentales.

Las funciones y los estimadores experimentales no están sujetos a los ciclos de obsolescencia. Utilízalos bajo tu propia responsabilidad!

experimental.enable_hist_gradient_boosting

Activa los estimadores de boosting de gradiente basados en histogramas.

experimental.enable_iterative_imputer

Activa IterativeImputer

experimental.enable_halving_search_cv

Activa los estimadores de búsqueda sucesiva por mitades

sklearn.feature_extraction: Extracción de Características

El módulo sklearn.feature_extraction se ocupa de la extracción de características de datos crudos. Actualmente incluye métodos para extraer características de texto e imágenes.

Manual de usuario: Consulte la sección Extracción de características para más detalles.

feature_extraction.DictVectorizer

Transforma listas de mapeos de valores y características a vectores.

feature_extraction.FeatureHasher

Implementa el hashing de características, también conocido como el truco del hashing.

Desde imágenes

El submódulo sklearn.feature_extraction.image reúne utilidades para extraer características de las imágenes.

feature_extraction.image.extract_patches_2d

Convierte una imagen 2D en una colección de fragmentos

feature_extraction.image.grid_to_graph

Grafo de las conexiones de píxel a píxel

feature_extraction.image.img_to_graph

Grafo de las conexiones de gradiente de píxel a píxel

feature_extraction.image.reconstruct_from_patches_2d

Reconstruye la imagen a partir de todos sus fragmentos.

feature_extraction.image.PatchExtractor

Extrae fragmentos de una colección de imágenes

Desde texto

El submódulo sklearn.feature_extraction.text reúne utilidades para construir vectores de características de los documentos de texto.

feature_extraction.text.CountVectorizer

Convertir una colección de documentos de texto en una matriz de conteo de tokens

feature_extraction.text.HashingVectorizer

Convertir una colección de documentos de texto en una matriz de ocurrencias de tokens

feature_extraction.text.TfidfTransformer

Transforma una matriz de conteo a una representación de tf o tf-idf normalizada

feature_extraction.text.TfidfVectorizer

Convierte una colección de documentos crudos en una matriz de características TF-IDF.

sklearn.feature_selection: Extracción de Características

El módulo sklearn.feature_selection implementa algoritmos de selección de características. Actualmente incluye métodos de selección de filtros univariantes y el algoritmo recursivo de eliminación de características.

Manual de usuario: Consulte la sección Selección de características para más detalles.

feature_selection.GenericUnivariateSelect

Selector de características univariante con estrategia configurable.

feature_selection.SelectPercentile

Selecciona características de acuerdo a un percentil de las puntuaciones más altas.

feature_selection.SelectKBest

Selecciona características de acuerdo a las k puntuaciones más altas.

feature_selection.SelectFpr

Filtro: Seleccione los pvalores por debajo de alfa basados en una prueba FPR.

feature_selection.SelectFdr

Filtro: Selecciona los p-valores para una tasa estimada de falsos descubrimientos

feature_selection.SelectFromModel

Metatransformador para seleccionar características basadas en pesos de importancia.

feature_selection.SelectFwe

Filtro: Seleccione los p-valores correspondientes a la tasa de error por familia

feature_selection.SequentialFeatureSelector

Transformador que realiza la selección secuencial de características.

feature_selection.RFE

Ordenación de características con eliminación recursiva de características.

feature_selection.RFECV

Ordenación de características con eliminación recursiva de características y selección con validación cruzada del mejor número de características.

feature_selection.VarianceThreshold

Selector de características que elimina todas las características de baja varianza.

feature_selection.chi2

Calcule las estadísticas de chi-cuadrado entre cada clase y característica no negativa.

feature_selection.f_classif

Calcula el valor-F de ANOVA para la muestra proporcionada.

feature_selection.f_regression

Pruebas de regresión lineal univariante.

feature_selection.mutual_info_classif

Estimar la información mutua para una variable objetivo discreta.

feature_selection.mutual_info_regression

Estimar la información mutua para una variable objetivo continua.

sklearn.gaussian_process: Procesos Gaussianos

El módulo sklearn.gaussian_process implementa la regresión y la clasificación basadas en procesos gaussianos.

Manual de usuario: Consulte la sección Procesos Gaussianos para más detalles.

gaussian_process.GaussianProcessClassifier

Clasificación de procesos gaussianos (Gaussian process classification, GPC) basada en la aproximación de Laplace.

gaussian_process.GaussianProcessRegressor

Regresión de procesos gaussianos (Gaussian process regression, GPR).

Núcleos:

gaussian_process.kernels.CompoundKernel

Núcleo (kernel) que se compone de un conjunto de otros núcleos.

gaussian_process.kernels.ConstantKernel

Núcleo constante.

gaussian_process.kernels.DotProduct

Núcleo de producto punto.

gaussian_process.kernels.ExpSineSquared

Núcleo Exp-Seno-Cuadrático (también conocido como núcleo periódico).

gaussian_process.kernels.Exponentiation

Calcula un kernel de exponenciación combinando un kernel base y un parámetro escalar \(p\).

gaussian_process.kernels.Hyperparameter

La especificación de un hiperparámetro del kernel en forma de una namedtuple.

gaussian_process.kernels.Kernel

Clase base para todos los kernels.

gaussian_process.kernels.Matern

Kernel Matérn.

gaussian_process.kernels.PairwiseKernel

Envoltorio para los kernels en sklearn.metrics.pairwise.

gaussian_process.kernels.Product

Calcula el kernel Product combinando dos kernels \(k_1\) y \(k_2\)

gaussian_process.kernels.RBF

Kernel de la función base Radial (también conocido como kernel cuadrado-exponencial).

gaussian_process.kernels.RationalQuadratic

Kernel Cuadrático Racional.

gaussian_process.kernels.Sum

Calcula el kernel Sum combinando dos kernels \(k_1\) y \(k_2\).

gaussian_process.kernels.WhiteKernel

Kernel blanco.

sklearn.impute: Imputar

Transformadores para la imputación de valores faltantes

Manual de usuario: Consulte la sección Imputación de valores faltantes para más detalles.

impute.SimpleImputer

Transformador de imputación para completar valores faltantes.

impute.IterativeImputer

Imputador multivariante que estima cada característica a partir de todas las restantes.

impute.MissingIndicator

Indicadores binarios para valores faltantes.

impute.KNNImputer

Imputación para completar los valores faltantes mediante vecinos más cercanos (k-Nearest Neighbors).

sklearn.inspection: Inspección

El módulo sklearn.inspection incluye herramientas para la inspección de modelos.

inspection.partial_dependence

Dependencia parcial de características.

inspection.permutation_importance

Importancia de la permutación para la evaluación de la característica [Rd9e56ef97513-BRE].

Graficos

inspection.PartialDependenceDisplay

Gráfico de dependencia parcial (PDP).

inspection.plot_partial_dependence

Gráficos de dependencia parcial (DP) y de expectativa condicional individual (ECI).

sklearn.isotonic: Regresión isotónica

Manual de usuario: Consulte la sección Regresión isotónica para más detalles.

isotonic.IsotonicRegression

Modelo de regresión isotónica.

isotonic.check_increasing

Determina si y está monotónicamente correlacionada con x.

isotonic.isotonic_regression

Resuelve el modelo de regresión isotónica.

sklearn.kernel_aproximation: Aproximación de Kernel

El módulo sklearn.kernel_approximation implementa varias transformaciones de características de núcleo aproximadas basados en transformadas de Fourier y Bocetos de Conteo.

Manual de usuario: Consulte la sección Aproximación de núcleo para más detalles.

kernel_approximation.AdditiveChi2Sampler

Transformación de características aproximada para el núcleo aditivo chi2.

kernel_approximation.Nystroem

Aproxima una transformación de núcleo usando un subconjunto de datos de entrenamiento.

kernel_approximation.PolynomialCountSketch

Aproximación polinómica de núcleo mediante Boceto Tensorial.

kernel_approximation.RBFSampler

Aproxima la transformación de características de un núcleo RBF (Función de Base Radial) por aproximación de Monte Carlo de su transformada de Fourier.

kernel_approximation.SkewedChi2Sampler

Aproxima la transformación de características de un núcleo «chi-cuadrado sesgado» por aproximación de Monte Carlo de su transformada de Fourier.

sklearn.kernel_ridge: Regresión de Cresta de Núcleo

El módulo sklearn.kernel_ridge implementa una regresión de cresta de núcleo.

Manual de usuario: Consulte la sección Regresión de cresta de núcleo para más detalles.

kernel_ridge.KernelRidge

Regresión de cresta de núcleo.

sklearn.linear_model. Modelos Lineales

El módulo sklearn.linear_model implementa una variedad de modelos lineales.

Manual de usuario: Consulte la sección Modelos lineales para más detalles.

Las siguientes subsecciones son sólo orientaciones generales: un mismo estimador puede pertenecer a varias categorías, en función de sus parámetros.

Clasificadores lineales

linear_model.LogisticRegression

Clasificador de Regresión Logística (conocido como logit, MaxEnt).

linear_model.LogisticRegressionCV

Clasificador de Regresión Logística CV (también conocido como logit, MaxEnt).

linear_model.PassiveAggressiveClassifier

Clasificador Pasivo Agresivo

linear_model.Perceptron

Más información en el Manual de Usuario.

linear_model.RidgeClassifier

Clasificador que usa la Regresión de Cresta.

linear_model.RidgeClassifierCV

Clasificador de cresta con validación cruzada incorporada.

linear_model.SGDClassifier

Clasificadores lineales (SVM, regresión logística, etc.) con entrenamiento SGD (descenso de gradiente estocástico).

Regresores lineales clásicos

linear_model.LinearRegression

Regresión lineal de mínimos cuadrados ordinarios.

linear_model.Ridge

Mínimos cuadrados lineales con regularización l2.

linear_model.RidgeCV

Regresión de cresta con validación cruzada incorporada.

linear_model.SGDRegressor

Modelo lineal ajustado por minimización de pérdida empírica regularizada con SGD (descenso de gradiente estocástico)

Regresores con selección de variables

Los siguientes estimadores tienen procedimientos de ajuste de selección de variables incorporados, pero cualquier estimador que utilice una penalización L1 o elastic-net también realiza la selección de variables: normalmente SGDRegressor o SGDClassifier con una penalización adecuada.

linear_model.ElasticNet

Regresión lineal con las distribuciones a priori L1 y L2 combinadas como regularizador.

linear_model.ElasticNetCV

Modelo de Red Elástica con ajuste iterativo a lo largo de una trayectoria de regularización.

linear_model.Lars

Modelo de regresión de mínimo ángulo, también conocido como

linear_model.LarsCV

Modelo de Regresión de Ángulo Mínimo con validación cruzada.

linear_model.Lasso

Modelo lineal entrenado con L1 a priori como regularizador (también conocido como Lasso)

linear_model.LassoCV

Modelo lineal Lasso con ajuste iterativo a lo largo de una ruta de regularización.

linear_model.LassoLars

Ajuste de modelo Lasso con Regresión de Ángulo Mínimo, también conocida como Lars.

linear_model.LassoLarsCV

Validación cruzada Lasso, utilizando el algoritmo LARS.

linear_model.LassoLarsIC

Ajuste de modelo Lasso con Lars utilizando BIC o AIC para la selección del modelo

linear_model.OrthogonalMatchingPursuit

Modelo de búsqueda de correspondencia ortogonal (OMP).

linear_model.OrthogonalMatchingPursuitCV

Modelo de búsqueda de correspondencia ortogonal (OMP) con validación cruzada.

Regresores bayesianos

linear_model.ARDRegression

Regresión bayesiana ARD.

linear_model.BayesianRidge

Regresión bayesiana de cresta.

Regresores lineales múlti-tarea con selección de variables

Estos estimadores ajustan múltiples problemas de regresión (o tareas) de forma conjunta, induciendo coeficientes dispersos. Aunque los coeficientes inferidos pueden diferir entre las tareas, están obligados a coincidir en las características seleccionadas (coeficientes no nulos).

linear_model.MultiTaskElasticNet

Modelo ElasticNet multitarea entrenado con la norma mixta L1/L2 como regularizador.

linear_model.MultiTaskElasticNetCV

ElasticNet multitarea L1/L2 con validación cruzada incorporada.

linear_model.MultiTaskLasso

Modelo Lasso multitarea entrenado con la norma mixta L1/L2 como regularizador.

linear_model.MultiTaskLassoCV

Modelo Lasso multitarea entrenado con la norma mixta L1/L2 como regularizador.

Regresores robustos a valores atípicos

Cualquier estimador que utiliza la pérdida de Huber también sería robusto a los valores atípicos, por ejemplo, SGDRegressor con loss='huber'.

linear_model.HuberRegressor

Modelo de regresión lineal que es robusto a valores atípicos.

linear_model.RANSACRegressor

Algoritmo RANSAC (RANdom Sample Consensus).

linear_model.TheilSenRegressor

Estimador Theil-Sen: modelo de regresión robusto multivariante.

Modelos lineales generalizados (GLM) para regresión

Estos modelos permiten que las variables de respuesta tengan distribuciones de errores distintas de una distribución normal:

linear_model.PoissonRegressor

Modelo lineal generalizado con una distribución de Poisson.

linear_model.TweedieRegressor

Modelo lineal generalizado con una distribución de Tweedie.

linear_model.GammaRegressor

Modelo lineal generalizado con distribución Gamma.

Misceláneos

linear_model.PassiveAggressiveRegressor

Regresor agresivo-pasivo

linear_model.enet_path

Calcula la ruta de red elástica con descenso de coordenadas.

linear_model.lars_path

Calcula la regresión de ángulo mínimo o la ruta de Lasso mediante el algoritmo LARS [1]

linear_model.lars_path_gram

lars_path en el modo de estadísticas suficientes [1]

linear_model.lasso_path

Calcula la ruta Lasso con descenso de coordenadas

linear_model.orthogonal_mp

Búsqueda de coincidencias ortogonales (OMP).

linear_model.orthogonal_mp_gram

Búsqueda de coincidencias ortogonales de Gram (OMP).

linear_model.ridge_regression

Resuelve la ecuación de cresta por el método de las ecuaciones normales.

sklearn.manifold: Manifold Learning

El módulo sklearn.manifold implementa técnicas de incrustación de datos.

Manual de usuario: Consulte la sección Aprendizaje múltiple para más detalles.

manifold.Isomap

Incrustación de Isomapas

manifold.LocallyLinearEmbedding

Incrustación local lineal

manifold.MDS

Escalamiento multidimensional.

manifold.SpectralEmbedding

Incrustación espectral para reducción de la dimensionalidad no lineal.

manifold.TSNE

Incrustación de Vecinos Estocástica t-distribuida.

manifold.locally_linear_embedding

Realiza un análisis de Incrustación Localmente Lineal en los datos.

manifold.smacof

Calcula el escalado multidimensional mediante el algoritmo SMACOF.

manifold.spectral_embedding

Proyecta la muestra sobre los primeros autovectores del grafo Laplaciano.

manifold.trustworthiness

Expresa hasta qué punto se mantiene la estructura local.

sklearn.metrics: Métricas

Ver la sección Métricas y puntuación: cuantificar la calidad de las predicciones y la sección Métricas por pares, afinidades y núcleos del manual del usuario para más detalles.

El módulo sklearn.metrics incluye funciones de puntuación, métricas de rendimiento y métricas por pares y cálculos de distancia.

Interfaz de Selección de Modelos

Ver la sección El parámetro scoring: definir las reglas de evaluación del modelo del manual del usuario para más detalles.

metrics.check_scoring

Determina el puntuador desde las opciones del usuario.

metrics.get_scorer

Obtiene un puntuador de una cadena.

metrics.make_scorer

Construye un puntuador a partir de una métrica de rendimiento o una función de pérdida.

Métricas de clasificación

Ver la sección Métricas de clasificación del manual del usuario para más detalles.

metrics.accuracy_score

Puntuación de exactitud de la clasificación.

metrics.auc

Calcula el Área Bajo la Curva (AUC) usando la regla trapezoidal.

metrics.average_precision_score

Calcula la precisión promedio (AP) de las puntuaciones de predicción.

metrics.balanced_accuracy_score

Calcula la exactitud balanceada.

metrics.brier_score_loss

Calcula la puntuación de pérdida de Brier.

metrics.classification_report

Construye un reporte que muestra las principales métricas de clasificación.

metrics.cohen_kappa_score

Kappa de Cohen: estadístico que mide el acuerdo entre anotadores.

metrics.confusion_matrix

Calcula la matriz de confusión para evaluar la exactitud de una clasificación.

metrics.dcg_score

Calcula la Ganancia Acumulada Descontada.

metrics.det_curve

Calcula las tasas de error para diferentes umbrales de probabilidad.

metrics.f1_score

Calcula la puntuación F1, también conocida como puntuación-F balanceada o medida-F.

metrics.fbeta_score

Calcula la puntuación F-beta.

metrics.hamming_loss

Calcula la pérdida promedio de Hamming.

metrics.hinge_loss

Pérdida promedio de bisagra (no regularizada).

metrics.jaccard_score

Puntuación del coeficiente de similitud de Jaccard.

metrics.log_loss

Pérdida logarítmica, también conocida como pérdida logística o pérdida de entropía cruzada.

metrics.matthews_corrcoef

Calcula el coeficiente de correlación de Matthews (MCC).

metrics.multilabel_confusion_matrix

Calcula una matriz de confusión para cada clase o muestra.

metrics.ndcg_score

Calcula la Ganancia Acumulada Descontada Normalizada.

metrics.precision_recall_curve

Calcula los pares de precisión-exhaustividad para diferentes umbrales de probabilidad.

metrics.precision_recall_fscore_support

Calcula precisión, exhaustividad, valor-F y el soporte para cada clase.

metrics.precision_score

Calcula la precisión.

metrics.recall_score

Calcula la exhaustividad.

metrics.roc_auc_score

Calcula el Área Bajo la Curva Característica Operativa del Receptor (ROC AUC) a partir de las puntuaciones de predicción.

metrics.roc_curve

Calcula la Característica Operativa del Receptor (ROC).

metrics.top_k_accuracy_score

Puntuación de clasificación de exactitud top-k.

metrics.zero_one_loss

Pérdida de clasificación cero-uno.

Métricas de Regresión

Ver la sección Métricas de Regresión del manual del usuario para más detalles.

metrics.explained_variance_score

Función de puntuación de regresión de varianza explicada.

metrics.max_error

La métrica max_error calcula el máximo error residual.

metrics.mean_absolute_error

Pérdida de error de regresión absoluta promedio.

metrics.mean_squared_error

Pérdida promedio de error de regresión cuadrático.

metrics.mean_squared_log_error

Pérdida promedio de error de regresión logarítmico cuadrático.

metrics.median_absolute_error

Pérdida de regresión por mediana de error absoluto.

metrics.mean_absolute_percentage_error

Pérdida promedio de error de regresión porcentual.

metrics.r2_score

Función de puntuación de regresión \(R^2\) (coeficiente de determinación).

metrics.mean_poisson_deviance

Pérdida promedio de desviación de regresión Poisson.

metrics.mean_gamma_deviance

Pérdida promedio de variación de regresión Gamma.

metrics.mean_tweedie_deviance

Pérdida promedio de desviación de regresión Tweedie.

Métricas de clasificación multietiqueta

Ver la sección Métricas de clasificación multietiqueta del manual del usuario para más detalles.

metrics.coverage_error

Medida de error de cobertura.

metrics.label_ranking_average_precision_score

Calcula la precisión promedio basada en la clasificación.

metrics.label_ranking_loss

Calcula la medida de pérdida de la clasificación.

Métricas de agrupamiento

Ver la sección Evaluación del rendimiento del análisis de conglomerados (agrupamiento) del manual del usuario para más detalles.

El submódulo sklearn.metrics.cluster contiene métricas de evaluación para los resultados de análisis de conglomerados. Hay dos formas de evaluación:

  • supervisado, que utiliza valores de clase verificados para cada muestra.

  • sin supervisión, que no utiliza valores de referencia, y mide la «calidad» del propio modelo.

metrics.adjusted_mutual_info_score

Información Mutua Ajustada (AMI) entre dos conglomerados.

metrics.adjusted_rand_score

Índice Rand ajustado al azar.

metrics.calinski_harabasz_score

Calcula la puntuación Calinski y Harabasz.

metrics.davies_bouldin_score

Calcula la puntuación Davies-Bouldin.

metrics.completeness_score

Métrica de completitud de un etiquetado de conglomerado de valores verificados dados.

metrics.cluster.contingency_matrix

Construye una matriz de contingencia que describe la relación entre las etiquetas.

metrics.cluster.pair_confusion_matrix

Matriz de confusión por pares que surge de dos agrupamientos.

metrics.fowlkes_mallows_score

Mide la similitud de dos conglomerados de un conjunto de puntos.

metrics.homogeneity_completeness_v_measure

Calcula a la vez la homogeneidad, la completitud y la puntuación V-Measure.

metrics.homogeneity_score

Métrica de homogeneidad de un etiquetado de conglomerado de valores verificados dados.

metrics.mutual_info_score

Información mutua entre dos conglomerados.

metrics.normalized_mutual_info_score

Información Mutua Normalizada entre dos conglomerados.

metrics.rand_score

Índice Rand.

metrics.silhouette_score

Calcula el Coeficiente de Silueta promedio de todas las muestras.

metrics.silhouette_samples

Calcula el Coeficiente de Silueta para cada muestra.

metrics.v_measure_score

Etiquetado de conglomerados con medida V dado un valor verificado.

Métricas de conglomerados dobles

Ver la sección Evaluación de Biclustering del manual del usuario para más detalles.

metrics.consensus_score

La similitud de dos conjuntos de conglomerados dobles.

Métricas por pares

Ver la sección Métricas por pares, afinidades y núcleos del manual del usuario para más detalles.

metrics.pairwise.additive_chi2_kernel

Calcula el núcleo chi-cuadrado aditivo entre las observaciones en X y Y.

metrics.pairwise.chi2_kernel

Calcula el núcleo exponencial chi-cuadrado X y Y.

metrics.pairwise.cosine_similarity

Calcula la similitud coseno entre las muestras en X y Y.

metrics.pairwise.cosine_distances

Calcula la distancia coseno entre las muestras en X y Y.

metrics.pairwise.distance_metrics

Métricas válidas para pairwise_distances.

metrics.pairwise.euclidean_distances

Considerando las filas de X (y Y=X) como vectores, calcula la matriz de distancia entre cada par de vectores.

metrics.pairwise.haversine_distances

Calcula la distancia Haversine entre las muestras en X y Y.

metrics.pairwise.kernel_metrics

Métricas válidas para pairwise_kernels.

metrics.pairwise.laplacian_kernel

Calcula el núcleo laplaciano entre X y Y.

metrics.pairwise.linear_kernel

Calcula el núcleo lineal entre X y Y.

metrics.pairwise.manhattan_distances

Calcula las distancias L1 entre los vectores en X y Y.

metrics.pairwise.nan_euclidean_distances

Calcula las distancias euclidianas en presencia de valores faltantes.

metrics.pairwise.pairwise_kernels

Calcula el núcleo entre los arreglos X y el arreglo Y opcional.

metrics.pairwise.polynomial_kernel

Calcula el núcleo polinomial entre X y Y.

metrics.pairwise.rbf_kernel

Calcula el núcleo rbf (gaussiano) entre X y Y.

metrics.pairwise.sigmoid_kernel

Calcula el núcleo sigmoide entre X e Y.

metrics.pairwise.paired_euclidean_distances

Calcula las distancias euclideanas por pares entre X e Y.

metrics.pairwise.paired_manhattan_distances

Calcula las distancias L1 entre los vectores en X y Y.

metrics.pairwise.paired_cosine_distances

Calcula las distancias de coseno por pares entre X y Y.

metrics.pairwise.paired_distances

Calcula las distancias por pares entre X y Y.

metrics.pairwise_distances

Calcula la matriz de distancia de un arreglo vectorial X y un opcional Y.

metrics.pairwise_distances_argmin

Calcula las distancias mínimas entre un punto y un conjunto de puntos.

metrics.pairwise_distances_argmin_min

Calcula las distancias mínimas entre un punto y un conjunto de puntos.

metrics.pairwise_distances_chunked

Genera una matriz de distancia trozo a trozo con reducción opcional.

Graficos

Ver la sección Visualizaciones del manual del usuario para más detalles.

metrics.plot_confusion_matrix

Grafica la matriz de confusión.

metrics.plot_det_curve

Grafica la curva de compromiso del error de detección (DET).

metrics.plot_precision_recall_curve

Grafica la Curva de Precisión y Exhaustividad para clasificadores binarios.

metrics.plot_roc_curve

Grafica la curva Característica Operativa del Receptor (ROC).

metrics.ConfusionMatrixDisplay

Visualización de la matriz de confusión.

metrics.DetCurveDisplay

Visualización de curvas DET.

metrics.PrecisionRecallDisplay

Visualización de Precisión y Exhaustividad.

metrics.RocCurveDisplay

Visualización de curvas ROC.

sklearn.mixture: Modelos de Mezclas Gaussianas

El módulo sklearn.mixture implementa algoritmos de modelado de mezclas.

Manual de usuario: Ver la sección Modelos de mezclas gaussianas para más detalles.

mixture.BayesianGaussianMixture

Estimación variacional Bayesiana de una mezcla Gaussiana.

mixture.GaussianMixture

Mezcla Gaussiana.

sklearn.model_selection: Selección del Modelo

Manual de usuario: Ver las secciones Validación cruzada: evaluación del rendimiento del estimador, Ajustar los hiperparámetros de un estimador y Curva de aprendizaje para más detalles.

Clases de Separadores

model_selection.GroupKFold

Variante del iterador K-fold con grupos no superpuestos.

model_selection.GroupShuffleSplit

Iterador de validación cruzada Shuffle-Group(s)-Out

model_selection.KFold

Validador cruzado K-Folds

model_selection.LeaveOneGroupOut

Validador cruzado Leave-One-Group-Out

model_selection.LeavePGroupsOut

Validador cruzado Leave-P-Group(s)-Out

model_selection.LeaveOneOut

Validador cruzado Leave-One-Out

model_selection.LeavePOut

Validador cruzado Leave-P-Out

model_selection.PredefinedSplit

Validador cruzado de separación predefinido

model_selection.RepeatedKFold

Validador cruzado K-Fold repetido.

model_selection.RepeatedStratifiedKFold

Validador cruzado K-Fold Repetido Estratificado.

model_selection.ShuffleSplit

Validador cruzado de permutación aleatoria

model_selection.StratifiedKFold

Validador cruzado K-Folds estratificado.

model_selection.StratifiedShuffleSplit

Validador cruzado ShuffleSplit estratificado

model_selection.TimeSeriesSplit

Validador cruzado de series de tiempo

Funciones de separación

model_selection.check_cv

Herramienta de comprobador de entrada para construir un validador cruzado

model_selection.train_test_split

Separar arreglos o matrices en subconjuntos aleatorios de entrenamiento y prueba

Optimizadores hiper-parámetro

model_selection.GridSearchCV

Búsqueda exhaustiva sobre los valores de los parámetros especificados para un estimador.

model_selection.HalvingGridSearchCV

Busca sobre los valores de los parámetros especificados con una reducción sucesiva a la mitad.

model_selection.ParameterGrid

Cuadrícula de parámetros con un número discreto de valores para cada uno.

model_selection.ParameterSampler

Generador de parámetros muestreados a partir de distribuciones dadas.

model_selection.RandomizedSearchCV

Búsqueda aleatoria sobre los hiperparámetros.

model_selection.HalvingRandomSearchCV

Búsqueda aleatoria sobre los hiperparámetros.

Validación del modelo

model_selection.cross_validate

Evalúa la(s) métrica(s) mediante validación cruzada y registra también los tiempos de ajuste/puntuación.

model_selection.cross_val_predict

Genera estimaciones de validación cruzada para cada punto de los datos de entrada

model_selection.cross_val_score

Evalúa una puntuación por validación cruzada

model_selection.learning_curve

Curva de aprendizaje.

model_selection.permutation_test_score

Evalúa la significancia de una puntuación de validación cruzada con permutaciones

model_selection.validation_curve

Curva de validación.

sklearn.multiclase: Clasificación multiclase

Estrategias de clasificación multiclase

Este módulo implementa algoritmos de aprendizaje multiclase:
  • one-vs-the-rest / one-vs-all

  • one-vs-one

  • corrección de errores de códigos de salida

Los estimadores proporcionados en este módulo son metaestimadores: requieren que se proporcione un estimador base en su constructor. Por ejemplo, es posible utilizar estos estimadores para convertir un clasificador o regresor binario en un clasificador multiclase. También es posible utilizar estos estimadores con estimadores multiclase con la esperanza de que su exactitud o rendimiento de ejecución mejoren.

Todos los clasificadores en scikit-learn implementan la clasificación multiclase; no necesitas utilizar este módulo a menos que quieras experimentar con estrategias multiclase personalizadas.

El meta-clasificador uno-vs-the-rest también implementa un método predict_proba, siempre y cuando tal método sea implementado por el clasificador base. Este método devuelve probabilidades de pertenencia a la clase tanto en el caso de una sola etiqueta como en el caso de múltiples etiquetas. Ten en cuenta que en el caso multietiqueta, las probabilidades son la probabilidad marginal de que una muestra determinada caiga en la clase dada. De esta manera, en el caso multietiqueta la suma de estas probabilidades sobre todas las etiquetas posibles para una muestra determinada no sumarán la unidad, como lo hacen en el caso de una sola etiqueta.

Manual de usuario: Ver la sección Clasificación multiclase para más detalles.

multiclass.OneVsRestClassifier

Estrategia multiclase «uno contra el resto» (One-vs-the-Rest o OvR).

multiclass.OneVsOneClassifier

Estrategia multiclase uno contra uno (one-vs-one)

multiclass.OutputCodeClassifier

(Corrección de errores) Estrategia de código de salida multiclase

sklearn.multioutput: Regresión y clasificación multisalida

Este módulo implementa la regresión y clasificación multisalida.

Los estimadores proporcionados en este módulo son metaestimadores: requieren que se proporcione un estimador base en su constructor. El meta-estimador extiende estimadores de salida única a estimadores multisalida.

Manual del usuario: Ver las secciones Clasificación multietiqueta, Clasificación multiclase y multisalida, y Regresión de salida múltiple para más detalles.

multioutput.ClassifierChain

Un modelo multietiqueta que ordena los clasificadores binarios en una cadena.

multioutput.MultiOutputRegressor

Regresión multiobjetivo

multioutput.MultiOutputClassifier

Clasificación multiobjetivo

multioutput.RegressorChain

Un modelo de multietiqueta que ordena regresiones en una cadena.

sklearn.naive_bayes: Bayes Ingenuo

El módulo sklearn.naive_bayes implementa algoritmos de Bayes Ingenuos. Estos son métodos de aprendizaje supervisado basados en la aplicación del teorema de Bayes con supuestos fuertes (ingenuos) de independencia entre características.

Manual de usuario: Ver la sección Bayesiano ingenuo para más detalles.

naive_bayes.BernoulliNB

Clasificador Bayes Ingenuo para modelos Bernoulli multivariantes.

naive_bayes.CategoricalNB

Clasificador Bayesiano Ingenuo para características categóricas

naive_bayes.ComplementNB

El clasificador Bayes Ingenuo Complementario descrito en Rennie et al. (2003).

naive_bayes.GaussianNB

Bayes Ingenuo Gaussiano (GaussianNB)

naive_bayes.MultinomialNB

Clasificador Bayesiano Ingenuo para modelos multinomiales

sklearn.neighbors: Vecinos más cercanos

El módulo sklearn.neighbors implementa el algoritmo de k-vecinos más cercanos.

Manual de usuario: Ver la sección Vecino más cercano para más detalles.

neighbors.BallTree(X[, leaf_size, metric])

BallTree para problemas rápidos generalizados de N puntos

neighbors.DistanceMetric

Clase DistanceMetric

neighbors.KDTree(X[, leaf_size, metric])

KDTree para problemas rápidos generalizados de N puntos

neighbors.KernelDensity

Estimación de Densidad de Núcleo.

neighbors.KNeighborsClassifier

Clasificador que implementa la votación de k- vecinos más cercanos.

neighbors.KNeighborsRegressor

Regresión basada en k-vecinos más cercanos.

neighbors.KNeighborsTransformer

Transforma X en un grafo (ponderado) de k vecinos más cercanos

neighbors.LocalOutlierFactor

Detección No Supervisada de valores Atípicos mediante el Factor Local de valores Atípicos (LOF)

neighbors.RadiusNeighborsClassifier

Clasificador que implementa un voto entre vecinos dentro de un radio determinado

neighbors.RadiusNeighborsRegressor

Regresión basada en vecinos dentro de un radio fijo.

neighbors.RadiusNeighborsTransformer

Transforma X en un grafo (ponderado) de vecinos más cercanos a un radio

neighbors.NearestCentroid

Clasificador de centroide más cercano.

neighbors.NearestNeighbors

Aprendiz no supervisado para implementar búsquedas de vecinos.

neighbors.NeighborhoodComponentsAnalysis

Análisis de Componentes del Vecindario

neighbors.kneighbors_graph

Calcula el grafo (ponderado) de k-vecinos para los puntos en X

neighbors.radius_neighbors_graph

Calcula el grafo (ponderado) de Vecinos para los puntos en X

sklearn.neural_network: Neural network models

El módulo sklearn.neural_network incluye modelos basados en redes neuronales.

Manual del usuario: Ver las secciones Modelos de redes neuronales (supervisadas) y Modelos de red neural (no supervisados) para más detalles.

neural_network.BernoulliRBM

Máquina de Boltzmann restringida de Bernoulli (RBM).

neural_network.MLPClassifier

Clasificador Perceptron multicapa.

neural_network.MLPRegressor

Regresor Perceptrón multicapa.

sklearn.pipeline: Tubería

El módulo sklearn.pipeline implementa utilidades para construir un estimador compuesto, como una cadena de transformaciones y estimadores.

Manual de usuario: Consulte la sección Pipelines y estimadores compuestos para más detalles.

pipeline.FeatureUnion

Concatena los resultados de múltiples objetos transformadores.

pipeline.Pipeline

Tubería de las transformaciones con un estimador final.

pipeline.make_pipeline

Construye una tubería de los estimadores dados.

pipeline.make_union

Construye un FeatureUnion de los transformadores dados.

sklearn.preprocessing: Preprocessing and Normalization

El módulo sklearn.preprocessing incluye métodos de escalamiento, centrado, normalización, y binarización.

Manual de usuario: Ver la sección Preprocesamiento de los datos para más detalles.

preprocessing.Binarizer

Binariza datos (asigna a las características valores de 0 o 1) de acuerdo a un umbral.

preprocessing.FunctionTransformer

Construye un transformador a partir de un invocable arbitrario.

preprocessing.KBinsDiscretizer

Agrupa datos continuos en intervalos.

preprocessing.KernelCenterer

Centra una matriz de núcleo.

preprocessing.LabelBinarizer

Binariza las etiquetas de una forma uno-contra-todos.

preprocessing.LabelEncoder

Codifica las etiquetas objetivo con un valor entre 0 y n_classes-1.

preprocessing.MultiLabelBinarizer

Transforma entre un iterable de iterables y un formato multietiqueta.

preprocessing.MaxAbsScaler

Escala cada característica por su valor absoluto máximo.

preprocessing.MinMaxScaler

Transforma las características escalando cada una de ellas a un rango determinado.

preprocessing.Normalizer

Normaliza las muestras individualmente a la norma unitaria.

preprocessing.OneHotEncoder

Codifica las características categóricas como un arreglo numérico one-hot.

preprocessing.OrdinalEncoder

Codifica las características categóricas como un arreglo de enteros.

preprocessing.PolynomialFeatures

Genera características polinómicas y de interacción.

preprocessing.PowerTransformer

Aplica una transformación de potencia por características para que los datos sean más Gaussianos.

preprocessing.QuantileTransformer

Transforma las características utilizando la información de los cuantiles.

preprocessing.RobustScaler

Escala las características utilizando estadísticas que son robustas a los valores atípicos.

preprocessing.StandardScaler

Estandariza las características eliminando la media y escalando a la varianza unitaria

preprocessing.add_dummy_feature

Aumenta el conjunto de datos con una característica adicional ficticia.

preprocessing.binarize

Soporte booleano de array-like o matriz scipy.sparse.

preprocessing.label_binarize

Binariza las etiquetas de una forma uno-contra-todos.

preprocessing.maxabs_scale

Escala cada característica al rango [-1, 1] sin romper la dispersión.

preprocessing.minmax_scale

Transforma las características escalando cada una de ellas a un rango determinado.

preprocessing.normalize

Escala los vectores de entrada individualmente a la norma unitaria (longitud del vector).

preprocessing.quantile_transform

Transforma las características utilizando la información de los cuantiles.

preprocessing.robust_scale

Estandariza un conjunto de datos a lo largo de cualquier eje

preprocessing.scale

Estandariza un conjunto de datos a lo largo de cualquier eje.

preprocessing.power_transform

Las transformaciones de potencia son una familia de transformaciones paramétricas monotónicas que se aplican para hacer los datos más Gaussianos.

sklearn.random_projection: Proyección Aleatoria

Transformadores de proyección aleatoria.

Las proyecciones aleatorias son una forma simple y computacionalmente eficiente de reducir la dimensionalidad de los datos intercambiando una cantidad controlada de exactitud (como varianza adicional) por tiempos de procesamiento más rápidos y tamaños de modelo más pequeños.

Las dimensiones y distribución de las matrices de proyecciones aleatorias se controlan para preservar las distancias por pares entre dos muestras del conjunto de datos.

El principal resultado teórico detrás de la eficiencia de la proyección aleatoria es el Lema de Johnson-Lindenstrauss (citando a Wikipedia):

En matemáticas, el lema Johnson-Lindenstrauss es un resultado relacionado con las inserciones de baja distorsión de puntos de un espacio de alta dimensión en un espacio euclideano de baja dimensión. El lema afirma que un pequeño conjunto de puntos en un espacio de alta dimensión puede integrarse en un espacio de dimensión mucho más baja de tal manera que las distancias entre los puntos casi se conservan. La transformación utilizada para la inserción es al menos Lipschitz, e incluso puede tomarse como una proyección ortogonal.

Manual de usuario: Ver la sección Proyección aleatoria para más detalles.

random_projection.GaussianRandomProjection

Reduce la dimensionalidad mediante la proyección aleatoria gaussiana.

random_projection.SparseRandomProjection

Reduce la dimensionalidad mediante la proyección aleatoria dispersa.

random_projection.johnson_lindenstrauss_min_dim

Encuentra un número “seguro” de componentes para proyectar aleatoriamente.

sklearn.semi_supervised: Aprendizaje semi-supervisado

El módulo sklearn.semi_supervised implementa algoritmos de aprendizaje semi-supervisado. Estos algoritmos utilizan pequeñas cantidades de datos etiquetados y grandes cantidades de datos no etiquetados para tareas de clasificación. Este módulo incluye Propagación de Etiquetas.

Manual de usuario: Ver la sección Aprendizaje semi supervisado para más detalles.

semi_supervised.LabelPropagation

Clasificador de propagación de etiquetas

semi_supervised.LabelSpreading

Modelo LabelSpreading para aprendizaje semi-supervisado

semi_supervised.SelfTrainingClassifier

Clasificador de autoentrenamiento.

sklearn.svm: Máquinas de soporte vectorial

El módulo sklearn.svm incluye algoritmos de máquinas de soporte vectorial.

Manual de usuario: Ver la sección Máquinas de Vectores de Soporte para más detalles.

Estimadores

svm.LinearSVC

Clasificación Lineal por Vectores de Soporte.

svm.LinearSVR

Regresión de Vector de Soporte Lineal.

svm.NuSVC

Clasificación de Vector Nu-Soporte.

svm.NuSVR

Regresión de Vector de Nu-Soporte.

svm.OneClassSVM

Detección de Valor Atípicos no supervisada.

svm.SVC

Clasificación de Vector C-Soporte.

svm.SVR

Regresión de Vector de Soporte-Épsilon.

svm.l1_min_c

Devuelve el límite más bajo para C tal que para C en (l1_min_C, infinity) se garantiza que el modelo no esté vacío.

sklearn.tree: Árboles de decisión

El módulo sklearn.tree incluye modelos basados en árboles de decisión para clasificación y regresión.

Manual de usuario: Ver la sección Árboles de decisión para más detalles.

tree.DecisionTreeClassifier

Un clasificador de árbol de decisión.

tree.DecisionTreeRegressor

Un regresor de árbol de decisión.

tree.ExtraTreeClassifier

Un clasificador de árboles extremadamente aleatorio.

tree.ExtraTreeRegressor

Un regresor de árbol extremadamente aleatorio.

tree.export_graphviz

Exporta un árbol de decisiones en formato DOT.

tree.export_text

Crea un reporte que muestra las reglas de un árbol de decisión.

Graficos

tree.plot_tree

Grafica un árbol de decisión.

sklearn.utils: Utilidades

El módulo sklearn.utils incluye varias utilidades.

Guía del desarrollador: Consulte la página Utilidades para Desarrolladores para más detalles.

utils.arrayfuncs.min_pos

Encuentra el valor mínimo de un arreglo sobre valores positivos

utils.as_float_array

Convierte un array-like en un arreglo de valores de punto flotante.

utils.assert_all_finite

Arroja un ValueError si X contiene NaN o infinito.

utils.Bunch

Objeto contenedor que expone las claves como atributos.

utils.check_X_y

Validación de entrada para estimadores estándar.

utils.check_array

Validación de entrada en un arreglo, lista, matriz dispersa o similar.

utils.check_scalar

Valida el tipo y el valor de los parámetros escalares.

utils.check_consistent_length

Comprueba que todos los arreglos tengan dimensiones iniciales consistentes.

utils.check_random_state

Convierte semillas en una instancia de np.random.RandomState

utils.class_weight.compute_class_weight

Estima los pesos de las clases para conjuntos de datos no balanceados.

utils.class_weight.compute_sample_weight

Estima los pesos muestrales por clase para conjuntos de datos no balanceados.

utils.deprecated

Decorador para marcar una función o clase como obsoleta.

utils.estimator_checks.check_estimator

Comprueba si el estimador cumple las convenciones de scikit-learn.

utils.estimator_checks.parametrize_with_checks

Decorador específico de pytest para parametrizar las comprobaciones del estimador.

utils.estimator_html_repr

Construye una representación HTML de un estimador.

utils.extmath.safe_sparse_dot

Producto punto que maneja correctamente el caso de una matriz dispersa.

utils.extmath.randomized_range_finder

Calcula una matriz ortonormal cuyo rango se aproxima el rango de A.

utils.extmath.randomized_svd

Calcula una SVD truncada aleatorizada.

utils.extmath.fast_logdet

Calcula log(det(A)) para A simétrico.

utils.extmath.density

Calcula la densidad de un vector disperso.

utils.extmath.weighted_mode

Devuelve un arreglo del valor modal (más común) ponderado en a.

utils.gen_even_slices

Generador para crear n_packs rebanadas que suben a n.

utils.graph.single_source_shortest_path_length

Devuelve la longitud del camino más corto desde el origen a todos los nodos alcanzables.

utils.graph_shortest_path.graph_shortest_path

Realiza una búsqueda del camino más corto en un grafo positivo dirigido o no dirigido.

utils.indexable

Construye arreglos indexables para la validación cruzada.

utils.metaestimators.if_delegate_has_method

Crea un decorador para métodos que se delegan a un subestimador

utils.multiclass.type_of_target

Determina el tipo de datos indicados por el objetivo.

utils.multiclass.is_multilabel

Comprueba si y está en un formato multietiqueta.

utils.multiclass.unique_labels

Extrae un arreglo ordenado de etiquetas únicas.

utils.murmurhash3_32

Calcula el murmurhash3 de 32 bits de la clave en la semilla.

utils.resample

Remuestrea arreglos o matrices dispersas de forma coherente.

utils._safe_indexing

Devuelve filas, elementos o columnas de X usando índices.

utils.safe_mask

Devuelve una máscara que es segura para usar en X.

utils.safe_sqr

Encuadrado por cada elemento de array-like y matrices dispersas.

utils.shuffle

Revuelve arreglos o matrices dispersas de forma coherente.

utils.sparsefuncs.incr_mean_variance_axis

Calcula la media y varianza incremental a lo largo de un eje en una matriz CSR o CSC.

utils.sparsefuncs.inplace_column_scale

Escalamiento de columnas in place de una matriz CSC/CSR.

utils.sparsefuncs.inplace_row_scale

Escalamiento de filas in place de una matriz CSR o CSC.

utils.sparsefuncs.inplace_swap_row

Intercambia dos filas de una matriz CSC/CSR in place.

utils.sparsefuncs.inplace_swap_column

Intercambia dos columnas de una matriz CSC/CSR in place.

utils.sparsefuncs.mean_variance_axis

Calcula la media y la varianza a lo largo de un eje en una matriz CSR o CSC.

utils.sparsefuncs.inplace_csr_column_scale

Escalamiento de columnas in place de una matriz CSR.

utils.sparsefuncs_fast.inplace_csr_row_normalize_l1

Normalización de filas in place utilizando la norma l1

utils.sparsefuncs_fast.inplace_csr_row_normalize_l2

Normalización de filas in place utilizando la norma l2

utils.random.sample_without_replacement

Muestra de enteros sin reemplazo.

utils.validation.check_is_fitted

Realiza la validación is_fitted para el estimador.

utils.validation.check_memory

Comprueba que memory sea joblib.Memory-like.

utils.validation.check_symmetric

Verifica que el arreglo es 2D, cuadrado y simétrico.

utils.validation.column_or_1d

Columna Ravel o arreglo 1d numpy, de lo contrario genera un error.

utils.validation.has_fit_parameter

Comprueba si el método de ajuste del estimador admite el parámetro dado.

utils.all_estimators

Obtiene una lista de todos los estimadores de sklearn.

Utilidades de joblib:

utils.parallel_backend

Cambia el backend predeterminado utilizado por Parallel dentro de un bloque with.

utils.register_parallel_backend

Registra un nuevo backend Parallel factory.

Recientemente obsoleto

A ser eliminado en 1.0 (renombrado de 0.25)