sklearn.cluster.Spectral_clustering

class sklearn.cluster.SpectralBiclustering

Spectral biclustering (Kluger, 2003).

Particiones de filas y columnas bajo el supuesto de que los datos tienen una estructura de tablero de bloques subyacente. Por ejemplo, si hay dos particiones de filas y tres de columnas, cada fila pertenecerá a tres biclusters y cada columna a dos biclusters. El producto exterior de los vectores de etiquetas de fila y columna correspondientes da esta estructura de tablero de bloques.

Más información en el Manual de usuario.

Parámetros
n_clustersentero o tupla (n_row_clusters, n_column_clusters), default=3

El número de grupos de filas y columnas en la estructura de bloque.

method{“bistochastic”, “scale”, “log”}, default=”bistochastic”

Método de normalización y conversión de vectores singulares en biclusters. Puede ser uno de los siguientes: “scale”, “bistochastic”, o “log”. Los autores recomiendan utilizar “log”. Sin embargo, si los datos son dispersos, la normalización logarítmica no funcionará, por lo que el valor predeterminado es “bistochastic”.

Advertencia

si method='log', los datos deben ser dispersos.

n_componentsint, default=6

Número de vectores singulares a comprobar.

n_bestint, default=3

Número de vectores singulares a los que proyectar los datos para el conglomerado.

svd_method{“randomized”, “arpack”}, default=”randomized”

Selecciona el algoritmo para encontrar vectores singulares. Puede ser “randomized” o “arpack”. Si es “randomized”, utiliza randomized_svd, que puede ser más rápido para matrices grandes. Si es “arpack”, utiliza scipy.sparse.linalg.svds, que es más preciso, pero posiblemente más lento en algunos casos.

n_svd_vecsint, default=None

Número de vectores a usar para calcular el SVD. Corresponde a ncv cuando svd_method=arpack y n_oversamples cuando svd_method es “randomized`.

mini_batchbool, default=False

Si se debe usar mini lote k-medias, lo cual es más rápido pero puede obtener diferentes resultados.

init{“k-means++”, “random”} o ndarray de (n_clusters, n_features), default=”k-means++”

Método de inicialización del algoritmo k-medias; por defecto es “k-means++”.

n_initint, default=10

Número de inicializaciones aleatorias que se prueban con el algoritmo k-medias.

Si se utiliza un mini lote k-medias, se elige la mejor inicialización y el algoritmo se ejecuta una vez. En caso contrario, el algoritmo se ejecuta para cada inicialización y se elige la mejor solución.

n_jobsint, default=None

El número de trabajos a utilizar para el cálculo. Esto funciona descomponiendo la matriz por pares en n_jobs partes iguales y calculándolas en paralelo.

None significa 1 a menos que esté en un contexto joblib.parallel_backend. -1 significa que se utilizan todos los procesadores. Consulta Glosario para más detalles.

Obsoleto desde la versión 0.23: n_jobs fue obsoleto en la versión 0.23 y se eliminará en la 1.0 (cambio de nombre de la versión 0.25).

random_stateentero, instancia de RandomState, default=None

Se utiliza para aleatorizar la descomposición del valor singular y la inicialización de k-medias. Utiliza un int para que la aleatoriedad sea determinista. Consulta Glosario.

Atributos
rows_array-like de forma (n_row_clusters, n_rows)

Resultado de la agrupación. La opción rows[i, r] es True si el cluster i contiene la fila r. Disponible sólo después de ejecutar fit.

columns_array-like de forma (n_column_clusters, n_columns)

Resultados del clustering, como rows.

row_labels_array-like de forma (n_rows,)

Etiquetas de partición de filas.

column_labels_array-like de forma (n_cols,)

Etiquetas de partición de filas.

Referencias

Ejemplos

>>> from sklearn.cluster import SpectralBiclustering
>>> import numpy as np
>>> X = np.array([[1, 1], [2, 1], [1, 0],
...               [4, 7], [3, 5], [3, 6]])
>>> clustering = SpectralBiclustering(n_clusters=2, random_state=0).fit(X)
>>> clustering.row_labels_
array([1, 1, 1, 0, 0, 0], dtype=int32)
>>> clustering.column_labels_
array([0, 1], dtype=int32)
>>> clustering
SpectralBiclustering(n_clusters=2, random_state=0)

Métodos

fit

Crea un biclustering para X.

get_indices

Filas e índices de columna de i’th bicluster.

get_params

Obtiene los parámetros para este estimador.

get_shape

Forma de i’th bicluster.

get_submatrix

Devuelve la submatriz correspondiente a bicluster i.

set_params

Establece los parámetros de este estimador.

property biclusters_

Una forma cómoda de reunir indicadores de registros y columnas.

Devuelve los miembros rows_ and columns_.

fit()

Crea un biclustering para X.

Parámetros
Xarray-like de forma (n_samples, n_features)
yIgnorado
get_indices()

Filas e índices de columna de i’th bicluster.

Solo funciona si los atributos rows_ y columns_ existen.

Parámetros
iint

El índice del cluster.

Devuelve
row_indndarray, dtype=np.intp

Indicios de filas en el conjunto de datos que pertenecen al bicluster.

col_indndarray, dtype=np.intp

Indices de columnas en el conjunto de datos que pertenecen al bicluster.

get_params()

Obtiene los parámetros para este estimador.

Parámetros
deepbool, default=True

Si es True, devolverá los parámetros para este estimador y los subobjetos contenidos que son estimadores.

Devuelve
paramsdict

Nombres de parámetros asignados a sus valores.

get_shape()

Forma de i’th bicluster.

Parámetros
iint

El índice del cluster.

Devuelve
n_rowsint

Número de filas en el bicluster.

n_colsint

Número de columnas en el bicluster.

get_submatrix()

Devuelve la submatriz correspondiente a bicluster i.

Parámetros
iint

El índice del cluster.

dataarray-like de forma (n_samples, n_features)

Los datos.

Devuelve
submatrixndarray de forma (n_rows, n_cols)

El submatrix correspondiente a bicluster i.

Notas

Funciona con matrices dispersas. Sólo funciona si existen atributos rows_ y columns_.

set_params()

Establece los parámetros de este estimador.

El método funciona tanto en estimadores simples como en objetos anidados (como Pipeline). Estos últimos tienen parámetros de la forma <component>__<parameter> para que sea posible actualizar cada componente de un objeto anidado.

Parámetros
**paramsdict

Parámetros del estimador.

Devuelve
selfinstancia del estimador

Instancia del estimador.