sklearn.covariance
.MinCovDet¶
- class sklearn.covariance.MinCovDet¶
Determinante de Covarianza Mínima (DCM): estimador robusto de la covarianza.
El estimador de covarianza de Determinante de Covarianza Minima se aplicará a los datos distribuidos por Gaussianos, pero podría igual ser relevante en datos tomados de una distribución simétrica y unimodal. No esta diseñada para ser usada con datos multi-modales (el algoritmo usado para encajar un objeto MinCovDet podría fallar en tal caso). Uno debería considerar los métodos de búsqueda de proyección para lidiar con los conjuntos de datos multi-modales.
Más información en el Manual de usuario.
- Parámetros
- store_precisionbool, default=True
Especifica si se almacena la precisión estimada.
- assume_centeredbool, default=False
Si es True, se calcula el apoyo de estimados robustos de ubicación y covarianza, y se recalcula una estimación de covarianza desde ahí, sin centrar los datos. Útil para trabajar con datos cuya media es significativamente igual a cero pero no es exactamente cero. Si es False, la ubicación y covarianza robusta se calculan directamente con el algoritmo FastMCD sin tratamiento adicional.
- support_fractionfloat, default=None
La proporción de puntos que se incluirán en el apoyo de la estimación MCD en bruto. El defecto es None, lo que implica que el mínimo valor de support_fraction será usado dentro del algoritmo:
(n_sample + n_features + 1) / 2
. El parámetro debe estar dentro del rango (0, 1).- random_stateentero, instancia de RandomState o None, default=None
Determina el generador de números pseudo aleatorios para barajar los datos. Pasa un int para resultados reproducibles a través de múltiples llamadas de función. Ver :term:
Glosario <random_state>
.
- Atributos
- raw_location_ndarray de forma (n_features,)
La ubicación robusta estimada antes de la corección y la reponderación.
- raw_covariance_ndarray de forma (n_features, n_features)
La covarianza robusta estimada antes de la corección y la reponderación.
- raw_support_ndarray de forma (n_samples,)
Una máscara de las observaciones que se han utilizado para calcular las estimaciones robustas de la ubicación y forma, antes de la corrección y el reponderado.
- location_ndarray de forma (n_features,)
Ubicación robusta estimada.
- covariance_ndarray de forma (n_features, n_features)
Matriz de covarianza robusta estimada.
- precision_ndarray de forma (n_features, n_features)
Matrix pseudo inversa estimada. (almacenada sólo si store_precision es True)
- support_ndarray de forma (n_samples,)
Una máscara de las observaciones que se han utilizado para calcular las estimaciones robustas de la ubicación y forma.
- dist_ndarray de forma (n_samples,)
Distancias mahalanobis de las observaciones del conjunto de entrenamiento (en el cual se llama
fit
).
Referencias
- Rouseeuw1984
P. J. Rousseeuw. Least median of squares regression. J. Am Stat Ass, 79:871, 1984.
- Rousseeuw
A Fast Algorithm for the Minimum Covariance Determinant Estimator, 1999, American Statistical Association and the American Society for Quality, TECHNOMETRICS
- ButlerDavies
R. W. Butler, P. L. Davies and M. Jhun, Asymptotics For The Minimum Covariance Determinant Estimator, The Annals of Statistics, 1993, Vol. 21, No. 3, 1385-1400
Ejemplos
>>> import numpy as np >>> from sklearn.covariance import MinCovDet >>> from sklearn.datasets import make_gaussian_quantiles >>> real_cov = np.array([[.8, .3], ... [.3, .4]]) >>> rng = np.random.RandomState(0) >>> X = rng.multivariate_normal(mean=[0, 0], ... cov=real_cov, ... size=500) >>> cov = MinCovDet(random_state=0).fit(X) >>> cov.covariance_ array([[0.7411..., 0.2535...], [0.2535..., 0.3053...]]) >>> cov.location_ array([0.0813... , 0.0427...])
Métodos
Aplica una corrección a los estimados de Determinante de Covarianza Mínima cruda.
Calcula el Error Cuadrático Medio entre dos estimadores de covarianza.
Encaja un Determinante de Covarianza Mínima con el algoritmo FastMCD.
Obtiene los parámetros para este estimador.
Colector para la matriz de precisión.
Calcula las distancias de mahalanobis cuadráticas de las observaciones dadas.
Reponderación de estimados de Determinante de Covarianza Mínima.
Calcula el logaritmo de la verosimilitud de un conjunto de datos Gaussiano con
self.covariance_
como un estimador de su matriz de covarianza.Establece los parámetros de este estimador.
- correct_covariance()¶
Aplica una corrección a los estimados de Determinante de Covarianza Mínima cruda.
Corrección usando el factor de corrección empírica sugerido por Rousseeuw y Van Driessen en [RVD].
- Parámetros
- dataarray-like de forma (n_samples, n_features)
La matriz de datos con p características y n muestras. El conjunto de datos debe ser el que fue utilizado para calcular las estimaciones en bruto.
- Devuelve
- covariance_correctedndarray de forma (n_features, n_features)
Estimado robusto de covarianza corregido.
Referencias
- RVD
A Fast Algorithm for the Minimum Covariance Determinant Estimator, 1999, American Statistical Association and the American Society for Quality, TECHNOMETRICS
- error_norm()¶
Calcula el Error Cuadrático Medio entre dos estimadores de covarianza. (En el sentido de la norma Frobenius).
- Parámetros
- comp_covarray-like de forma (n_features, n_features)
La covarianza con la cual se compara.
- norm{«frobenius», «spectral»}, default=»frobenius»
El tipo de norma utilizada para calcular el error. Tipos de error disponibles: - “frobenius” (predeterminado): sqrt(tr(A^t.)) - “spectral”: sqrt(max(eigenvalues(A^t.A)) donde A es el error
(comp_cov - self.covariance_)
.- scalingbool, default=True
Si es True (predeterminado), la norma del error cuadrático es dividida por n_features. Si es False, la norma del error cuadrático no es reescalada.
- squaredbool, default=True
Si se calcula la norma de error cuadrático o la norma de error. Si es True (predeterminado) se devuelve la norma de error cuadrático. Si es False, se devuelve la norma de error.
- Devuelve
- resultfloat
El Error Cuadrático Medio (en el sentido de la norma Frobenius) entre los estimadores de covarianza
self
ycomp_cov
.
- fit()¶
Encaja un Determinante de Covarianza Mínima con el algoritmo FastMCD.
- Parámetros
- Xarray-like de forma (n_samples, n_features)
Datos de entrenamiento, donde
n_samples
es el número de muestras yn_features
es el número de características.- y: Ignorado
No se utiliza, está presente para la consistencia de la API por convención.
- Devuelve
- selfobjeto
- get_params()¶
Obtiene los parámetros para este estimador.
- Parámetros
- deepbool, default=True
Si es True, devolverá los parámetros para este estimador y los subobjetos contenidos que son estimadores.
- Devuelve
- paramsdict
Nombres de parámetros asignados a sus valores.
- get_precision()¶
Colector para la matriz de precisión.
- Devuelve
- precision_array-like de forma (n_features, n_features)
La matriz de precisión asociada al objeto de covariancia actual.
- mahalanobis()¶
Calcula las distancias de mahalanobis cuadráticas de las observaciones dadas.
- Parámetros
- Xarray-like de forma (n_samples, n_features)
Las observaciones, las distancias Mahalanobis de lo que calculamos. Se asume que las observaciones se extraen de la misma distribución que utilizaron los datos en el ajuste.
- Devuelve
- distndarray de forma (n_samples,)
Distancias de Mahalanobis cuadráticas de las observaciones.
- reweight_covariance()¶
Reponderación de estimados de Determinante de Covarianza Mínima.
El re-ponderado de observaciones utilizando el método de Rousseuw (equivalente a eliminar las observaciones atípicas del conjunto de datos antes de calcular los estimados de ubicación y covarianza) descrito en [RVDriessen].
- Parámetros
- dataarray-like de forma (n_samples, n_features)
La matriz de datos con p características y n muestras. El conjunto de datos debe ser el que fue utilizado para calcular las estimaciones en bruto.
- Devuelve
- location_reweightedndarray de forma (n_features,)
Estimado robusto de ubicación reponderado.
- covariance_reweightedndarray de forma (n_features, n_features)
Estimado robusto de covarianza reponderado.
- support_reweightedndarray de forma (n_samples,), dtype=bool
Una máscara de las observaciones que se han utilizado para calcular las estimaciones reponderadas robustas de la ubicación y forma.
Referencias
- RVDriessen
A Fast Algorithm for the Minimum Covariance Determinant Estimator, 1999, American Statistical Association and the American Society for Quality, TECHNOMETRICS
- score()¶
Calcula el logaritmo de la verosimilitud de un conjunto de datos Gaussiano con
self.covariance_
como un estimador de su matriz de covarianza.- Parámetros
- X_testarray-like de forma (n_samples, n_features)
Los datos de prueba de los cuales calculamos la probabilidad, donde n_samples es el número de muestras y n_features es el número de características. Se asume que X_test se extrae de la misma distribución que los datos utilizados (incluyendo el centrado).
- yIgnorado
No se utiliza, está presente para la consistencia de la API por convención.
- Devuelve
- resfloat
La probabilidad del conjunto de datos con
self.covariance_
como un estimador de su matriz de covarianza.
- set_params()¶
Establece los parámetros de este estimador.
El método funciona tanto en estimadores simples como en objetos anidados (como
Pipeline
). Estos últimos tienen parámetros de la forma<component>__<parameter>
para que sea posible actualizar cada componente de un objeto anidado.- Parámetros
- **paramsdict
Parámetros del estimador.
- Devuelve
- selfinstancia del estimador
Instancia del estimador.