sklearn.utils.sparsefuncs.incr_mean_variance_axis

sklearn.utils.sparsefuncs.incr_mean_variance_axis()

Calcula la media y la varianza incremental a lo largo de un eje en una matriz CSR o CSC.

last_mean, last_var son los estadísticos calculados en el último paso por esta función. Ambos deben ser inicializados en 0-arreglos del tamaño adecuado es decir, el número de características en X. last_n es el número de muestras encontradas hasta ahora.

Parámetros
XCSR o CSC matriz dispersa de forma (n_samples, n_features)

Datos de entrada.

axis{0, 1}

Eje a lo largo del cual se debe calcular el eje.

last_meanndarray de forma (n_features,) o (n_samples,), dtype=floating

Arreglo de medias para actualizar con los nuevos datos X. Debe tener la forma (n_features,) si axis=0 o (n_samples,) si axis=1.

last_varndarray de forma (n_features,) o (n_samples,), dtype=floating

Arreglo de varianzas para actualizar con los nuevos datos X. Debe tener la forma (n_características,) si axis=0 o (n_samples,) si axis=1.

last_nfloat o ndarray de forma (n_features,) o (n_samples,), dtype=floating

Suma de las ponderaciones vistas hasta ahora, excluyendo los pesos actuales Si no es un número de punto flotante (float) debe ser de la forma (n_samples,) si axis=0 o (n_features,) si axis=1. Si es un número de punto flotante (float) corresponde a tener las mismas ponderaciones para todas las muestras (o características).

weightsndarray de forma (n_samples,) o (n_features,), default=None

Si axis se establece en 0 la forma es (n_samples,) o si axis se establece en 1 la forma es (n_features,). Si se establece como None, las muestras se ponderan por igual.

Nuevo en la versión 0.24.

Devuelve
meansndarray de forma (n_features,) o (n_samples,), dtype=floating

Medias actualizadas para cada característica si axis = 0 o para cada muestras si axis = 1.

variancesndarray de forma (n_features,) o (n_samples,), dtype=floating

Varianzas actualizadas para cada característica si axis = 0 o para cada muestras si axis = 1.

nndarray de forma (n_features,) o (n_samples,), dtype=integral

Número actualizado de muestras vistas por característica si axis=0 o el número de características vistas por muestra si axis=1.

Si las ponderaciones no son None, n es una suma de las ponderaciones de las muestras o características vistas en lugar del número real de muestras o características vistas.

Notas

Los NaN son ignorados en el algoritmo.