sklearn.cluster.compute_optics_graph

sklearn.cluster.compute_optics_graph()

Calcula el gráfico de accesibilidad de OPTICS.

Más información en el Manual de usuario.

Parámetros
Xndarray de forma (n_samples, n_features), o (n_samples, n_samples) if metric=’precomputed’.

Un arreglo de características, o una matriz de distancias entre muestras si metric=”precomputed”

min_samplesint > 1 o float entre 0 y 1

El número de muestras en un vecindario (neighborhood) para que un punto se considere un punto central. Expresado como un número absoluto o una fracción del número de muestras (redondeado para que sea al menos 2).

max_epsfloat, default=np.inf

La distancia máxima entre dos muestras para que una se considere en el vecindario de la otra. El valor predeterminado de np.inf identificará conglomerados en todas las escalas; si se reduce max_eps se obtendrán tiempos de ejecución más cortos.

metriccadena o invocable, default=”minkowski”

Métrica a utilizar para el cálculo de la distancia. Se puede utilizar cualquier métrica de scikit-learn o scipy.spatial.distance.

Si la métrica es una función invocable, se llama a cada par de instancias (filas) y se registra el valor resultante. La llamada debe tomar dos arreglos como entrada y devolver un valor que indique la distancia entre ellos. Esto funciona para las métricas de Scipy, pero es menos eficiente que pasar el nombre de la métrica como una cadena. Si la métrica es «precalculada», se asume que X es una matriz de distancia y debe ser cuadrada.

Valores válidos para la métrica son:

  • from scikit-learn: [“cityblock”, “cosine”, “euclidean”, “l1”, “l2”, “manhattan”]

  • from scipy.spatial.distance: [“braycurtis”, “canberra”, “chebyshev”, “correlation”, “dice”, “hamming”, “jaccard”, “kulsinski”, “mahalanobis”, “minkowski”, “rogerstanimoto”, “russellrao”, “seuclidean”, “sokalmichener”, “sokalsneath”, “sqeuclidean”, “yule”]

Consulta la documentación de scipy.spatial.distance para obtener detalles sobre estas métricas.

pint, default=2

Parámetro para la métrica de Minkowski de pairwise_distances. Cuando p = 1, esto es equivalente a usar manhattan_distance (l1), y euclidean_distance (l2) para p = 2. Para un p arbitrario, se utiliza minkowski_distance (l_p).

metric_paramsdict, default=None

Argumentos adicionales de palabras clave para la función métrica.

algorithm{“auto”, “ball_tree”, “kd_tree”, “brute”}, default=”auto”

Algoritmo utilizado para calcular los vecinos más cercanos:

  • “ball_tree” will use BallTree

  • “kd_tree” will use KDTree

  • “brute” usará una búsqueda de fuerza bruta.

  • “auto” intentará decidir el algoritmo más apropiado basado en los valores pasados al método fit. (predeterminado)

Nota: el ajuste en la entrada dispersa anulará el ajuste de este parámetro, utilizando la fuerza bruta.

leaf_sizeint, default=30

Tamaño de la hoja que se pasa a BallTree o KDTree. Esto puede afectar a la velocidad de construcción y consulta, así como a la memoria necesaria para almacenar el árbol. El valor óptimo depende de la naturaleza del problema.

n_jobsint, default=None

El número de trabajos paralelos a ejecutar para la búsqueda de vecinos. None significa 1 a menos que esté en un contexto joblib.parallel_backend. -1 significa usar todos los procesadores. Consulta Glosario para más detalles.

Devuelve
ordering_array de forma (n_samples,)

La lista ordenada de los conglomerados de la muestra.

core_distances_array de forma (n_samples,)

Distancia a la que cada muestra se convierte en un punto central, indexado por orden de objeto. Los puntos que nunca serán núcleo (core) tienen una distancia inf. Utiliza clust.core_distances_[clust.ordering_] para acceder en orden de conglomerado.

reachability_array de forma (n_samples,)

Distancias de accesibilidad por muestra, indexadas por orden de objeto. Utiliza clust.reachability_[clust.ordering_] para acceder en orden de agrupamiento.

predecessor_array de forma (n_samples,)

Punto desde el que se alcanzó una muestra, indexado por orden de objeto. Los seed points tienen un predecesor de -1.

Referencias

1

Ankerst, Mihael, Markus M. Breunig, Hans-Peter Kriegel, y Jörg Sander. «OPTICS: ordering points to identify the clustering structure.» ACM SIGMOD Record 28, no. 2 (1999): 49-60.