sklearn.cluster.mean_shift

sklearn.cluster.mean_shift()

Realiza un agrupamiento de datos por media desplazada usando un núcleo plano.

Más información en el Manual de usuario.

Parámetros
Xarray-like de forma (n_samples, n_features)

Datos de input.

bandwidthfloat, default=None

Ancho de banda de núcleo.

Si no se da el ancho de banda, se determina utilizando una heurística basada en la mediana de todas las distancias entre pares. Esto llevará un tiempo cuadrático en el número de muestras. La función sklearn.cluster.estimate_bandwidth se puede utilizar para hacer esto de manera más eficiente.

seedsarray-like de forma (n_seeds, n_features) or None

Punto utilizado como ubicaciones iniciales del núcleo. Si None y bin_seeding=False, cada punto de datos se utiliza como semilla. Si None y bin_seeding=True, consulta bin_seeding.

bin_seedingbool, default=False

Si es verdadero, las ubicaciones iniciales del núcleo no son las ubicaciones de todos los puntos, sino la ubicación de la versión discretizada de los puntos, donde los puntos se dividen en una cuadrícula cuya amplitud (coarseness) corresponde al ancho de banda. Si se establece esta opción como True, se acelerará el algoritmo porque se iniciarán menos semillas. Se ignora si el argumento seeds no es None.

min_bin_freqint, default=1

Para acelerar el algoritmo, acepta sólo aquellos intervalos con al menos puntos de min_bin_freq como semillas.

cluster_allbool, default=True

Si es verdadero, se agrupan todos los puntos, incluso los huérfanos que no están dentro de ningún núcleo. Los huérfanos se asignan al núcleo más cercano. Si es falso, los huérfanos reciben la etiqueta de clúster -1.

max_iterint, default=300

Número máximo de iteraciones, por punto semilla, antes de que la operación de agrupamiento termine (para ese punto semilla), si aún no ha convergido.

n_jobsint, default=None

El número de tareas a utilizar para el cálculo. Esto funciona calculando cada una de las ejecuciones de n_init en paralelo.

None significa 1 a menos que esté en un contexto joblib.parallel_backend. -1 significa que se utilizan todos los procesadores. Consulta Glosario para más detalles.

Nuevo en la versión 0.17: Parallel Execution using n_jobs.

Devuelve
cluster_centersndarray de forma (n_clusters, n_features)

Coordenadas de los centros de conglomerado.

labelsndarray de forma (n_samples,)

Etiquetas de conglomerado para cada punto.

Notas

Para ver un ejemplo, consulta examples/cluster/plot_mean_shift.py.