sklearn.cluster
.compute_optics_graph¶
- sklearn.cluster.compute_optics_graph()¶
Calcula el gráfico de accesibilidad de OPTICS.
Más información en el Manual de usuario.
- Parámetros
- Xndarray de forma (n_samples, n_features), o (n_samples, n_samples) if metric=’precomputed’.
Un arreglo de características, o una matriz de distancias entre muestras si metric=”precomputed”
- min_samplesint > 1 o float entre 0 y 1
El número de muestras en un vecindario (neighborhood) para que un punto se considere un punto central. Expresado como un número absoluto o una fracción del número de muestras (redondeado para que sea al menos 2).
- max_epsfloat, default=np.inf
La distancia máxima entre dos muestras para que una se considere en el vecindario de la otra. El valor predeterminado de
np.inf
identificará conglomerados en todas las escalas; si se reducemax_eps
se obtendrán tiempos de ejecución más cortos.- metriccadena o invocable, default=”minkowski”
Métrica a utilizar para el cálculo de la distancia. Se puede utilizar cualquier métrica de scikit-learn o scipy.spatial.distance.
Si la métrica es una función invocable, se llama a cada par de instancias (filas) y se registra el valor resultante. La llamada debe tomar dos arreglos como entrada y devolver un valor que indique la distancia entre ellos. Esto funciona para las métricas de Scipy, pero es menos eficiente que pasar el nombre de la métrica como una cadena. Si la métrica es «precalculada», se asume que X es una matriz de distancia y debe ser cuadrada.
Valores válidos para la métrica son:
from scikit-learn: [“cityblock”, “cosine”, “euclidean”, “l1”, “l2”, “manhattan”]
from scipy.spatial.distance: [“braycurtis”, “canberra”, “chebyshev”, “correlation”, “dice”, “hamming”, “jaccard”, “kulsinski”, “mahalanobis”, “minkowski”, “rogerstanimoto”, “russellrao”, “seuclidean”, “sokalmichener”, “sokalsneath”, “sqeuclidean”, “yule”]
Consulta la documentación de scipy.spatial.distance para obtener detalles sobre estas métricas.
- pint, default=2
Parámetro para la métrica de Minkowski de
pairwise_distances
. Cuando p = 1, esto es equivalente a usar manhattan_distance (l1), y euclidean_distance (l2) para p = 2. Para un p arbitrario, se utiliza minkowski_distance (l_p).- metric_paramsdict, default=None
Argumentos adicionales de palabras clave para la función métrica.
- algorithm{“auto”, “ball_tree”, “kd_tree”, “brute”}, default=”auto”
Algoritmo utilizado para calcular los vecinos más cercanos:
“ball_tree” will use
BallTree
“kd_tree” will use
KDTree
“brute” usará una búsqueda de fuerza bruta.
“auto” intentará decidir el algoritmo más apropiado basado en los valores pasados al método
fit
. (predeterminado)
Nota: el ajuste en la entrada dispersa anulará el ajuste de este parámetro, utilizando la fuerza bruta.
- leaf_sizeint, default=30
Tamaño de la hoja que se pasa a
BallTree
oKDTree
. Esto puede afectar a la velocidad de construcción y consulta, así como a la memoria necesaria para almacenar el árbol. El valor óptimo depende de la naturaleza del problema.- n_jobsint, default=None
El número de trabajos paralelos a ejecutar para la búsqueda de vecinos.
None
significa 1 a menos que esté en un contextojoblib.parallel_backend
.-1
significa usar todos los procesadores. Consulta Glosario para más detalles.
- Devuelve
- ordering_array de forma (n_samples,)
La lista ordenada de los conglomerados de la muestra.
- core_distances_array de forma (n_samples,)
Distancia a la que cada muestra se convierte en un punto central, indexado por orden de objeto. Los puntos que nunca serán núcleo (core) tienen una distancia inf. Utiliza
clust.core_distances_[clust.ordering_]
para acceder en orden de conglomerado.- reachability_array de forma (n_samples,)
Distancias de accesibilidad por muestra, indexadas por orden de objeto. Utiliza
clust.reachability_[clust.ordering_]
para acceder en orden de agrupamiento.- predecessor_array de forma (n_samples,)
Punto desde el que se alcanzó una muestra, indexado por orden de objeto. Los seed points tienen un predecesor de -1.
Referencias
- 1
Ankerst, Mihael, Markus M. Breunig, Hans-Peter Kriegel, y Jörg Sander. «OPTICS: ordering points to identify the clustering structure.» ACM SIGMOD Record 28, no. 2 (1999): 49-60.