sklearn.covariance.MinCovDet

class sklearn.covariance.MinCovDet

Determinante de Covarianza Mínima (DCM): estimador robusto de la covarianza.

El estimador de covarianza de Determinante de Covarianza Minima se aplicará a los datos distribuidos por Gaussianos, pero podría igual ser relevante en datos tomados de una distribución simétrica y unimodal. No esta diseñada para ser usada con datos multi-modales (el algoritmo usado para encajar un objeto MinCovDet podría fallar en tal caso). Uno debería considerar los métodos de búsqueda de proyección para lidiar con los conjuntos de datos multi-modales.

Más información en el Manual de usuario.

Parámetros
store_precisionbool, default=True

Especifica si se almacena la precisión estimada.

assume_centeredbool, default=False

Si es True, se calcula el apoyo de estimados robustos de ubicación y covarianza, y se recalcula una estimación de covarianza desde ahí, sin centrar los datos. Útil para trabajar con datos cuya media es significativamente igual a cero pero no es exactamente cero. Si es False, la ubicación y covarianza robusta se calculan directamente con el algoritmo FastMCD sin tratamiento adicional.

support_fractionfloat, default=None

La proporción de puntos que se incluirán en el apoyo de la estimación MCD en bruto. El defecto es None, lo que implica que el mínimo valor de support_fraction será usado dentro del algoritmo: (n_sample + n_features + 1) / 2. El parámetro debe estar dentro del rango (0, 1).

random_stateentero, instancia de RandomState o None, default=None

Determina el generador de números pseudo aleatorios para barajar los datos. Pasa un int para resultados reproducibles a través de múltiples llamadas de función. Ver :term: Glosario <random_state>.

Atributos
raw_location_ndarray de forma (n_features,)

La ubicación robusta estimada antes de la corección y la reponderación.

raw_covariance_ndarray de forma (n_features, n_features)

La covarianza robusta estimada antes de la corección y la reponderación.

raw_support_ndarray de forma (n_samples,)

Una máscara de las observaciones que se han utilizado para calcular las estimaciones robustas de la ubicación y forma, antes de la corrección y el reponderado.

location_ndarray de forma (n_features,)

Ubicación robusta estimada.

covariance_ndarray de forma (n_features, n_features)

Matriz de covarianza robusta estimada.

precision_ndarray de forma (n_features, n_features)

Matrix pseudo inversa estimada. (almacenada sólo si store_precision es True)

support_ndarray de forma (n_samples,)

Una máscara de las observaciones que se han utilizado para calcular las estimaciones robustas de la ubicación y forma.

dist_ndarray de forma (n_samples,)

Distancias mahalanobis de las observaciones del conjunto de entrenamiento (en el cual se llama fit).

Referencias

Rouseeuw1984

P. J. Rousseeuw. Least median of squares regression. J. Am Stat Ass, 79:871, 1984.

Rousseeuw

A Fast Algorithm for the Minimum Covariance Determinant Estimator, 1999, American Statistical Association and the American Society for Quality, TECHNOMETRICS

ButlerDavies

R. W. Butler, P. L. Davies and M. Jhun, Asymptotics For The Minimum Covariance Determinant Estimator, The Annals of Statistics, 1993, Vol. 21, No. 3, 1385-1400

Ejemplos

>>> import numpy as np
>>> from sklearn.covariance import MinCovDet
>>> from sklearn.datasets import make_gaussian_quantiles
>>> real_cov = np.array([[.8, .3],
...                      [.3, .4]])
>>> rng = np.random.RandomState(0)
>>> X = rng.multivariate_normal(mean=[0, 0],
...                                   cov=real_cov,
...                                   size=500)
>>> cov = MinCovDet(random_state=0).fit(X)
>>> cov.covariance_
array([[0.7411..., 0.2535...],
       [0.2535..., 0.3053...]])
>>> cov.location_
array([0.0813... , 0.0427...])

Métodos

correct_covariance

Aplica una corrección a los estimados de Determinante de Covarianza Mínima cruda.

error_norm

Calcula el Error Cuadrático Medio entre dos estimadores de covarianza.

fit

Encaja un Determinante de Covarianza Mínima con el algoritmo FastMCD.

get_params

Obtiene los parámetros para este estimador.

get_precision

Colector para la matriz de precisión.

mahalanobis

Calcula las distancias de mahalanobis cuadráticas de las observaciones dadas.

reweight_covariance

Reponderación de estimados de Determinante de Covarianza Mínima.

score

Calcula el logaritmo de la verosimilitud de un conjunto de datos Gaussiano con self.covariance_ como un estimador de su matriz de covarianza.

set_params

Establece los parámetros de este estimador.

correct_covariance()

Aplica una corrección a los estimados de Determinante de Covarianza Mínima cruda.

Corrección usando el factor de corrección empírica sugerido por Rousseeuw y Van Driessen en [RVD].

Parámetros
dataarray-like de forma (n_samples, n_features)

La matriz de datos con p características y n muestras. El conjunto de datos debe ser el que fue utilizado para calcular las estimaciones en bruto.

Devuelve
covariance_correctedndarray de forma (n_features, n_features)

Estimado robusto de covarianza corregido.

Referencias

RVD

A Fast Algorithm for the Minimum Covariance Determinant Estimator, 1999, American Statistical Association and the American Society for Quality, TECHNOMETRICS

error_norm()

Calcula el Error Cuadrático Medio entre dos estimadores de covarianza. (En el sentido de la norma Frobenius).

Parámetros
comp_covarray-like de forma (n_features, n_features)

La covarianza con la cual se compara.

norm{«frobenius», «spectral»}, default=»frobenius»

El tipo de norma utilizada para calcular el error. Tipos de error disponibles: - “frobenius” (predeterminado): sqrt(tr(A^t.)) - “spectral”: sqrt(max(eigenvalues(A^t.A)) donde A es el error (comp_cov - self.covariance_).

scalingbool, default=True

Si es True (predeterminado), la norma del error cuadrático es dividida por n_features. Si es False, la norma del error cuadrático no es reescalada.

squaredbool, default=True

Si se calcula la norma de error cuadrático o la norma de error. Si es True (predeterminado) se devuelve la norma de error cuadrático. Si es False, se devuelve la norma de error.

Devuelve
resultfloat

El Error Cuadrático Medio (en el sentido de la norma Frobenius) entre los estimadores de covarianza self y comp_cov.

fit()

Encaja un Determinante de Covarianza Mínima con el algoritmo FastMCD.

Parámetros
Xarray-like de forma (n_samples, n_features)

Datos de entrenamiento, donde n_samples es el número de muestras y n_features es el número de características.

y: Ignorado

No se utiliza, está presente para la consistencia de la API por convención.

Devuelve
selfobjeto
get_params()

Obtiene los parámetros para este estimador.

Parámetros
deepbool, default=True

Si es True, devolverá los parámetros para este estimador y los subobjetos contenidos que son estimadores.

Devuelve
paramsdict

Nombres de parámetros asignados a sus valores.

get_precision()

Colector para la matriz de precisión.

Devuelve
precision_array-like de forma (n_features, n_features)

La matriz de precisión asociada al objeto de covariancia actual.

mahalanobis()

Calcula las distancias de mahalanobis cuadráticas de las observaciones dadas.

Parámetros
Xarray-like de forma (n_samples, n_features)

Las observaciones, las distancias Mahalanobis de lo que calculamos. Se asume que las observaciones se extraen de la misma distribución que utilizaron los datos en el ajuste.

Devuelve
distndarray de forma (n_samples,)

Distancias de Mahalanobis cuadráticas de las observaciones.

reweight_covariance()

Reponderación de estimados de Determinante de Covarianza Mínima.

El re-ponderado de observaciones utilizando el método de Rousseuw (equivalente a eliminar las observaciones atípicas del conjunto de datos antes de calcular los estimados de ubicación y covarianza) descrito en [RVDriessen].

Parámetros
dataarray-like de forma (n_samples, n_features)

La matriz de datos con p características y n muestras. El conjunto de datos debe ser el que fue utilizado para calcular las estimaciones en bruto.

Devuelve
location_reweightedndarray de forma (n_features,)

Estimado robusto de ubicación reponderado.

covariance_reweightedndarray de forma (n_features, n_features)

Estimado robusto de covarianza reponderado.

support_reweightedndarray de forma (n_samples,), dtype=bool

Una máscara de las observaciones que se han utilizado para calcular las estimaciones reponderadas robustas de la ubicación y forma.

Referencias

RVDriessen

A Fast Algorithm for the Minimum Covariance Determinant Estimator, 1999, American Statistical Association and the American Society for Quality, TECHNOMETRICS

score()

Calcula el logaritmo de la verosimilitud de un conjunto de datos Gaussiano con self.covariance_ como un estimador de su matriz de covarianza.

Parámetros
X_testarray-like de forma (n_samples, n_features)

Los datos de prueba de los cuales calculamos la probabilidad, donde n_samples es el número de muestras y n_features es el número de características. Se asume que X_test se extrae de la misma distribución que los datos utilizados (incluyendo el centrado).

yIgnorado

No se utiliza, está presente para la consistencia de la API por convención.

Devuelve
resfloat

La probabilidad del conjunto de datos con self.covariance_ como un estimador de su matriz de covarianza.

set_params()

Establece los parámetros de este estimador.

El método funciona tanto en estimadores simples como en objetos anidados (como Pipeline). Estos últimos tienen parámetros de la forma <component>__<parameter> para que sea posible actualizar cada componente de un objeto anidado.

Parámetros
**paramsdict

Parámetros del estimador.

Devuelve
selfinstancia del estimador

Instancia del estimador.