sklearn.metrics.silhouette_samples

sklearn.metrics.silhouette_samples()

Calcula el Coeficiente de Silueta para cada muestra.

El Coeficiente de Silueta es una medida de qué también se agrupan las muestras con muestras que son similares a ellas mismas. Se dice que los modelos de agrupamiento con un Coeficiente de Silueta alto son densos, cuando las muestras en el mismo grupo son similares entre sí, y están bien separadas, cuando las muestras en diferentes grupos no son muy similares entre sí.

El Coeficiente de Silueta se calcula utilizando la distancia media dentro del conglomerado (a) y la distancia media entre conglomerados más cercanos (b) para cada muestra. El Coeficiente de Silueta de una muestra es (b - a) / max(a, b). Ten en cuenta que el Coeficiente de Silueta sólo se define si el número de etiquetas es 2 <= n_labels <= n_samples - 1.

Esta función devuelve el Coeficiente de Silueta para cada muestra.

El mejor valor es 1 y el peor valor es -1. Los valores cercanos a 0 indican conglomerados superpuestos.

Lee más en el Manual de usuario.

Parámetros
Xarray-like de forma (n_samples_a, n_samples_a) si metric == «precomputed» o (n_samples_a, n_features) en caso contrario

Un arreglo de distancias entre pares de muestras, o un arreglo de características.

labelsarray-like de forma (n_samples,)

Valores de etiqueta para cada muestra.

metricstr o invocable, default=”euclidean”

La métrica a utilizar cuando se calcula la distancia entre instancias en un arreglo de características. Si la métrica es una cadena, debe ser una de las opciones permitidas por sklearn.metrics.pairwise.pairwise_distances. Si X es el propio arreglo de distancias, utiliza «precomputed» como métrica. Las matrices de distancia precalculadas deben tener 0 en la diagonal.

`**kwds`optional keyword parameters

Cualquier parámetro adicional se pasa directamente a la función de distancia. Si utilizas una métrica scipy.spatial.distance, los parámetros siguen siendo dependientes de la métrica. Consulta los documentos scipy para ver ejemplos de uso.

Devuelve
silhouettearray-like de forma (n_samples,)

Coeficientes de Silueta para cada muestra.

Referencias

1

Peter J. Rousseeuw (1987). «Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis». Computational and Applied Mathematics 20: 53-65.

2

Entrada de Wikipedia en el Coeficiente de Silhouette