sklearn.metrics.mutual_info_score

sklearn.metrics.mutual_info_score()

Información mutua entre dos conglomerados.

La Información Mutua es una medida de la similitud entre dos etiquetas de los mismos datos. Donde \(|U_i|\) es el número de muestras en el conglomerado \(U_i\) y \(|V_j|\) es el número de muestras en el conglomerado \(V_j\), la Información Mutua entre los conglomerados \(U\) y \(V\) viene dada por:

\[MI(U,V)=\sum_{i=1}^{|U|} \sum_{j=1}^{|V|} \frac{|U_i\cap V_j|}{N} \log\frac{N|U_i \cap V_j|}{|U_i||V_j|}\]

Esta métrica es independiente de los valores absolutos de las etiquetas: una permutación de los valores de las etiquetas de la clase o del conglomerado no cambiará el valor de la puntuación de ninguna manera.

Esta métrica es además simétrica: si se cambia label_true por label_pred devolverá el mismo valor de puntuación. Esto puede ser útil para medir la concordancia de dos estrategias independientes de asignación de etiquetas en el mismo conjunto de datos cuando no se conoce la verdad fundamental real.

Leer más en el Manual de Usuario.

Parámetros
labels_truearreglo de enteros, forma = [n_samples]

Un conglomerado de los datos en subconjuntos disjuntos.

labels_predint array-like de forma (n_samples,)

Un conglomerado de los datos en subconjuntos disjuntos.

contingency{ndarray, sparse matrix} de forma (n_classes_true, n_classes_pred), default=None

Una matriz de contingencia dada por la función contingency_matrix. Si el valor es None, se calculará, de lo contrario se utiliza el valor dado, con labels_true y labels_pred ignorados.

Devuelve
mifloat

Información mutua, un valor no negativo

Ver también

adjusted_mutual_info_score

Información Mutua ajustada contra el azar.

normalized_mutual_info_score

Información Mutua Normalizada.

Notas

El logaritmo utilizado es el logaritmo natural (base-e).