sklearn.cluster.kmeans_plusplus

sklearn.cluster.kmeans_plusplus()

Init n_clusters semillas según k-medias++

Nuevo en la versión 0.24.

Parámetros
X{array-like, sparse matrix} de forma (n_samples, n_features)

The data to pick seeds from.

n_clustersint

El número de centroides a iniciar

x_squared_normstipo array de forma (n_samples,), default=None

Norma Euclideana cuadrada de cada punto de datos.

random_stateentero o instancia de RandomState, default=None

Determina la generación de números aleatorios para la inicialización del centroide. Pasa un int para una salida reproducible a través de múltiples llamadas a la función. Consulta Glosario.

n_local_trialsint, default=None

El número de ensayos de semillas para cada centro (excepto el primero), de los cuales se elige con avidez el que más reduce la inercia. Establece el valor None para que el número de ensayos dependa logarítmicamente del número de semillas (2+log(k)).

Devuelve
centersndarray de forma (n_clusters, n_features)

Los centros iniciales de k-medias.

indicesndarray de forma (n_clusters,)

La ubicación del índice de los centros elegidos en el arreglo de datos X. Para un índice y un centro dados, X[index] = center.

Notas

Selecciona los centros iniciales de los conglomerados para la agrupación k-media de forma inteligente para acelerar la convergencia. ver: Arthur, D. and Vassilvitskii, S. «k-means++: the advantages of careful seeding». ACM-SIAM symposium on Discrete algorithms. 2007

Ejemplos

>>> from sklearn.cluster import kmeans_plusplus
>>> import numpy as np
>>> X = np.array([[1, 2], [1, 4], [1, 0],
...               [10, 2], [10, 4], [10, 0]])
>>> centers, indices = kmeans_plusplus(X, n_clusters=2, random_state=0)
>>> centers
array([[10,  4],
       [ 1,  0]])
>>> indices
array([4, 2])