Selección del número de conglomerados con el análisis de silueta en el agrupamiento KMedias (KMeans)

El análisis de siluetas puede utilizarse para estudiar la distancia de separación entre los conglomerados resultantes. El gráfico de silueta muestra una medida de la proximidad de cada punto de un conglomerados a los puntos de los conglomerados vecinos y, por tanto, proporciona una forma de evaluar visualmente parámetros como el número de conglomerados. Esta medida tiene un rango de [-1, 1].

Los coeficientes de silueta (como se denominan estos valores) cercanos a +1 indican que la muestra está lejos de los conglomerados vecinos. Un valor de 0 indica que la muestra está en la frontera de decisión entre dos conglomerados vecinos o muy cerca de ella, y los valores negativos indican que esas muestras podrían haber sido asignadas al conglomerado equivocado.

En este ejemplo se utiliza el análisis de siluetas para elegir un valor óptimo de n_clusters. El gráfico de silueta muestra que los valores de n_clusters de 3, 5 y 6 son una mala elección para los datos dados debido a la presencia de conglomerados con puntuaciones de silueta inferiores al promedio y también debido a las amplias fluctuaciones en el tamaño de los gráficos de silueta. El análisis de siluetas es más ambivalente a la hora de decidir entre 2 y 4.

También se puede visualizar el tamaño del conglomerado a partir del grosor del gráfico de silueta. El gráfico de silueta del conglomerado 0, cuando n_clusters es igual a 2, es más grande debido a la agrupación de los 3 subconglomerados en un gran conglomerado. Sin embargo, cuando el valor de n_clusters es igual a 4, todos los gráficos tienen un grosor más o menos similar y, por lo tanto, son de tamaños similares, como puede comprobarse también en el gráfico de dispersión etiquetado a la derecha.

  • Silhouette analysis for KMeans clustering on sample data with n_clusters = 2, The silhouette plot for the various clusters., The visualization of the clustered data.
  • Silhouette analysis for KMeans clustering on sample data with n_clusters = 3, The silhouette plot for the various clusters., The visualization of the clustered data.
  • Silhouette analysis for KMeans clustering on sample data with n_clusters = 4, The silhouette plot for the various clusters., The visualization of the clustered data.
  • Silhouette analysis for KMeans clustering on sample data with n_clusters = 5, The silhouette plot for the various clusters., The visualization of the clustered data.
  • Silhouette analysis for KMeans clustering on sample data with n_clusters = 6, The silhouette plot for the various clusters., The visualization of the clustered data.

Out:

For n_clusters = 2 The average silhouette_score is : 0.7049787496083262
For n_clusters = 3 The average silhouette_score is : 0.5882004012129721
For n_clusters = 4 The average silhouette_score is : 0.6505186632729437
For n_clusters = 5 The average silhouette_score is : 0.56376469026194
For n_clusters = 6 The average silhouette_score is : 0.4504666294372765

from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_samples, silhouette_score

import matplotlib.pyplot as plt
import matplotlib.cm as cm
import numpy as np

print(__doc__)

# Generating the sample data from make_blobs
# This particular setting has one distinct cluster and 3 clusters placed close
# together.
X, y = make_blobs(n_samples=500,
                  n_features=2,
                  centers=4,
                  cluster_std=1,
                  center_box=(-10.0, 10.0),
                  shuffle=True,
                  random_state=1)  # For reproducibility

range_n_clusters = [2, 3, 4, 5, 6]

for n_clusters in range_n_clusters:
    # Create a subplot with 1 row and 2 columns
    fig, (ax1, ax2) = plt.subplots(1, 2)
    fig.set_size_inches(18, 7)

    # The 1st subplot is the silhouette plot
    # The silhouette coefficient can range from -1, 1 but in this example all
    # lie within [-0.1, 1]
    ax1.set_xlim([-0.1, 1])
    # The (n_clusters+1)*10 is for inserting blank space between silhouette
    # plots of individual clusters, to demarcate them clearly.
    ax1.set_ylim([0, len(X) + (n_clusters + 1) * 10])

    # Initialize the clusterer with n_clusters value and a random generator
    # seed of 10 for reproducibility.
    clusterer = KMeans(n_clusters=n_clusters, random_state=10)
    cluster_labels = clusterer.fit_predict(X)

    # The silhouette_score gives the average value for all the samples.
    # This gives a perspective into the density and separation of the formed
    # clusters
    silhouette_avg = silhouette_score(X, cluster_labels)
    print("For n_clusters =", n_clusters,
          "The average silhouette_score is :", silhouette_avg)

    # Compute the silhouette scores for each sample
    sample_silhouette_values = silhouette_samples(X, cluster_labels)

    y_lower = 10
    for i in range(n_clusters):
        # Aggregate the silhouette scores for samples belonging to
        # cluster i, and sort them
        ith_cluster_silhouette_values = \
            sample_silhouette_values[cluster_labels == i]

        ith_cluster_silhouette_values.sort()

        size_cluster_i = ith_cluster_silhouette_values.shape[0]
        y_upper = y_lower + size_cluster_i

        color = cm.nipy_spectral(float(i) / n_clusters)
        ax1.fill_betweenx(np.arange(y_lower, y_upper),
                          0, ith_cluster_silhouette_values,
                          facecolor=color, edgecolor=color, alpha=0.7)

        # Label the silhouette plots with their cluster numbers at the middle
        ax1.text(-0.05, y_lower + 0.5 * size_cluster_i, str(i))

        # Compute the new y_lower for next plot
        y_lower = y_upper + 10  # 10 for the 0 samples

    ax1.set_title("The silhouette plot for the various clusters.")
    ax1.set_xlabel("The silhouette coefficient values")
    ax1.set_ylabel("Cluster label")

    # The vertical line for average silhouette score of all the values
    ax1.axvline(x=silhouette_avg, color="red", linestyle="--")

    ax1.set_yticks([])  # Clear the yaxis labels / ticks
    ax1.set_xticks([-0.1, 0, 0.2, 0.4, 0.6, 0.8, 1])

    # 2nd Plot showing the actual clusters formed
    colors = cm.nipy_spectral(cluster_labels.astype(float) / n_clusters)
    ax2.scatter(X[:, 0], X[:, 1], marker='.', s=30, lw=0, alpha=0.7,
                c=colors, edgecolor='k')

    # Labeling the clusters
    centers = clusterer.cluster_centers_
    # Draw white circles at cluster centers
    ax2.scatter(centers[:, 0], centers[:, 1], marker='o',
                c="white", alpha=1, s=200, edgecolor='k')

    for i, c in enumerate(centers):
        ax2.scatter(c[0], c[1], marker='$%d$' % i, alpha=1,
                    s=50, edgecolor='k')

    ax2.set_title("The visualization of the clustered data.")
    ax2.set_xlabel("Feature space for the 1st feature")
    ax2.set_ylabel("Feature space for the 2nd feature")

    plt.suptitle(("Silhouette analysis for KMeans clustering on sample data "
                  "with n_clusters = %d" % n_clusters),
                 fontsize=14, fontweight='bold')

plt.show()

Tiempo total de ejecución del script: (0 minutos 2.054 segundos)

Galería generada por Sphinx-Gallery