sklearn.cluster
.mean_shift¶
- sklearn.cluster.mean_shift()¶
Realiza un agrupamiento de datos por media desplazada usando un núcleo plano.
Más información en el Manual de usuario.
- Parámetros
- Xarray-like de forma (n_samples, n_features)
Datos de input.
- bandwidthfloat, default=None
Ancho de banda de núcleo.
Si no se da el ancho de banda, se determina utilizando una heurística basada en la mediana de todas las distancias entre pares. Esto llevará un tiempo cuadrático en el número de muestras. La función sklearn.cluster.estimate_bandwidth se puede utilizar para hacer esto de manera más eficiente.
- seedsarray-like de forma (n_seeds, n_features) or None
Punto utilizado como ubicaciones iniciales del núcleo. Si None y bin_seeding=False, cada punto de datos se utiliza como semilla. Si None y bin_seeding=True, consulta bin_seeding.
- bin_seedingbool, default=False
Si es verdadero, las ubicaciones iniciales del núcleo no son las ubicaciones de todos los puntos, sino la ubicación de la versión discretizada de los puntos, donde los puntos se dividen en una cuadrícula cuya amplitud (coarseness) corresponde al ancho de banda. Si se establece esta opción como True, se acelerará el algoritmo porque se iniciarán menos semillas. Se ignora si el argumento seeds no es None.
- min_bin_freqint, default=1
Para acelerar el algoritmo, acepta sólo aquellos intervalos con al menos puntos de min_bin_freq como semillas.
- cluster_allbool, default=True
Si es verdadero, se agrupan todos los puntos, incluso los huérfanos que no están dentro de ningún núcleo. Los huérfanos se asignan al núcleo más cercano. Si es falso, los huérfanos reciben la etiqueta de clúster -1.
- max_iterint, default=300
Número máximo de iteraciones, por punto semilla, antes de que la operación de agrupamiento termine (para ese punto semilla), si aún no ha convergido.
- n_jobsint, default=None
El número de tareas a utilizar para el cálculo. Esto funciona calculando cada una de las ejecuciones de n_init en paralelo.
None
significa 1 a menos que esté en un contextojoblib.parallel_backend
.-1
significa que se utilizan todos los procesadores. Consulta Glosario para más detalles.Nuevo en la versión 0.17: Parallel Execution using n_jobs.
- Devuelve
- cluster_centersndarray de forma (n_clusters, n_features)
Coordenadas de los centros de conglomerado.
- labelsndarray de forma (n_samples,)
Etiquetas de conglomerado para cada punto.
Notas
Para ver un ejemplo, consulta examples/cluster/plot_mean_shift.py.