sklearn.neighbors.RadiusNeighborsTransformer

class sklearn.neighbors.RadiusNeighborsTransformer

Transforma X en una gráfica (ponderada) de vecinos más cercana a un radio

Los datos transformados son un gráfico disperso devuelto por radius_neighbors_graph.

Más información en el Manual de usuario.

Nuevo en la versión 0.22.

Parámetros
mode{“distance”, “connectivity”}, default=”distance”

Tipo de matriz devuelta: “conectividad” devolverá la matriz de conectividad con unos y ceros, y “distancia” devolverá las distancias entre vecinos según la métrica dada.

radiusflotante, default=1.

Radio del vecindario en el gráfico disperso transformado.

algorithm{“auto”, “ball_tree”, “kd_tree”, “brute”}, default=”auto”

Algoritmo usado para calcular los vecinos más cercanos:

  • “ball_tree” usará BallTree

  • “kd_tree” will usa KDTree

  • “brute” usará una búsqueda de fuerza bruta.

  • “auto” intentará decidir el algoritmo más apropiado basado en los valores pasados al método fit.

Nota: el ajuste en la entrada dispersa anulará el ajuste de este parámetro, utilizando la fuerza bruta.

leaf_sizeentero, default=30

Tamaño de hoja pasado a BallTree o KDTree. Esto puede afectar la velocidad de la construcción y la consulta, así como la memoria necesaria para almacenar el árbol. El valor óptimo depende de la naturaleza del problema.

metriccadena de caracteres o invocable, default=»minkowski”

métrica a utilizar para el cálculo de la distancia. Se puede utilizar cualquier métrica de scikit-learn o scipy.spatial.distance.

Si la métrica es una función invocable, se llama a cada par de instancias (filas) y se registra el valor resultante. El invocable debe tomar dos arreglos como entrada y devolver un valor que indique la distancia entre ellos. Esto funciona para las métricas de Scipy, pero es menos eficiente que pasar el nombre de la métrica como una cadena.

Las matrices de distancia no son compatibles.

Valores válidos para la métrica son:

  • de scikit-learn: [“cityblock”, “cosine”, “euclidean”, “l1”, “l2”, “manhattan”]

  • de scipy.spatial.distance: [“braycurtis”, “canberra”, “chebyshev”, “correlation”, “dice”, “hamming”, “jaccard”, “kulsinski”, “mahalanobis”, “minkowski”, “rogerstanimoto”, “russellrao”, “seuclidean”, “sokalmichener”, “sokalsneath”, “sqeuclidean”, “yule”]

Consulta la documentación de scipy.spatial.distance para obtener detalles sobre estas métricas.

pentero, default=2

Parámetro para la métrica de Minkowski de sklearn.metrics.pairwise.pairwise_distances. Cuando p = 1, esto es equivalente a usar manhattan_distance (l1), y euclidean_distance (l2) para p = 2. Para p arbitrario, se utiliza minkowski_distance (l_p).

metric_paramsdict, default=None

Argumentos adicionales de palabras clave para la función métrica.

n_jobsentero, default=1

El número de trabajos paralelos a ejecutar para la búsqueda de vecinos. Si -1, el número de trabajos se establece en el número de núcleos de la CPU.

Atributos
effective_metric_cadena de caracteres o invocable

La métrica de distancia utilizada. Será la misma que el parámetro metric o un sinónimo de ésta, por ejemplo, “euclidean” si el parámetro metric se establece en “minkowski” y el parámetro p se establece en 2.

effective_metric_params_dict

Argumentos adicionales para la función métrica. Para la mayoría de las métricas será lo mismo que el parámetro metric_params, pero también puede contener el valor del parámetro p si el atributo effective_metric_ se establece como minkowski.

n_samples_fit_entero

Número de muestras en los datos ajustados.

Ejemplos

>>> from sklearn.cluster import DBSCAN
>>> from sklearn.neighbors import RadiusNeighborsTransformer
>>> from sklearn.pipeline import make_pipeline
>>> estimator = make_pipeline(
...     RadiusNeighborsTransformer(radius=42.0, mode='distance'),
...     DBSCAN(min_samples=30, metric='precomputed'))

Métodos

fit

Ajusta el radio de los vecinos transformados desde el conjunto de datos de entrenamiento.

fit_transform

Se ajustan los datos y luego se transforman.

get_params

Obtiene los parámetros para este estimador.

radius_neighbors

Encuentra a los vecinos dentro de un radio determinado de un punto o puntos.

radius_neighbors_graph

Calcula el gráfico (ponderado) de vecinos para los puntos de X

set_params

Establece los parámetros de este estimador.

transform

Calcula el gráfico (ponderado) de vecinos para los puntos de X

fit()

Ajusta el radio de los vecinos transformados desde el conjunto de datos de entrenamiento.

Parámetros
X{array-like, sparse matrix} de forma (n_samples, n_features) o (n_samples, n_samples) si metric=”precomputed”

Datos de entrenamiento.

Devuelve
selfRadiusNeighborsTransformer

El transformador de vecinos de radio ajustado.

fit_transform()

Se ajustan los datos y luego se transforman.

Ajusta el transformador a X e y con los parámetros opcionales fit_params y devuelve una versión transformada de X.

Parámetros
Xarray-like de forma (n_samples, n_features)

Conjunto de entrenamiento.

yignorado
Devuelve
Xtmatriz dispersa de forma (n_samples, n_samples)

A Xt[i, j] se le asigna la poderación del borde que conecta i con j. Sólo los vecinos tienen un valor explícito. La diagonal es siempre explícita. La matriz tiene el formato CSR.

get_params()

Obtiene los parámetros para este estimador.

Parámetros
deepbooleano, default=True

Si es True, devolverá los parámetros para este estimador y los sub objetos contenidos que son estimadores.

Devuelve
paramsdict

Nombres de parámetros mapeados a sus valores.

radius_neighbors()

Encuentra a los vecinos dentro de un radio determinado de un punto o puntos.

Devuelve los índices y distancias de cada punto del conjunto de datos que se encuentra en una bola con el tamaño radius alrededor de los puntos del arreglo de consultas. Los puntos en el límite están incluidos en los resultados.

Los puntos de resultado no necesariamente están ordenados por distancia a su punto de consulta.

Parámetros
Xarray-like de (n_samples, n_features), default=None

El punto o puntos de la consulta. Si no se proporciona, se devuelven los vecinos de cada punto indexado. En este caso, el punto de consulta no se considera su propio vecino.

radiusflotante, default=None

Limitando la distancia de vecinos a regresar. El valor predeterminado es pasado al constructor.

return_distancebooleano, default=True

Si se devuelven o no las distancias.

sort_resultsbooleano, default=False

Si es True, las distancias e índices serán ordenados antes de ser devueltos. Si es False, los resultados no se ordenarán. Si return_distance=False, al establecer sort_results=True se producirá un error.

Nuevo en la versión 0.22.

Devuelve
neigh_distndarray de forma (n_samples,) de arreglos

Arreglo que representa las distancias a cada punto, sólo presente si return_distance=True. Los valores de la distancia se calculan según el parámetro del constructor metric.

neigh_indndarray de forma (n_samples,) de arreglos

Un arreglo de arreglos de los puntos más cercanos aproximados de la matriz de población que se encuentran dentro de una bola de tamaño radius alrededor de los puntos de la consulta.

Notas

Porque el número de vecinos de cada punto no es necesariamente igual, los resultados para múltiples puntos de consulta no pueden caber en un arreglo de datos estándar. Para la eficiencia, radius_neighbors devuelve arreglo de objetos, donde cada objeto es un arreglo 1D de índices o distancias.

Ejemplos

En el siguiente ejemplo, construimos una clase NeighborsClassifier a partir de un arreglo que representa nuestro conjunto de datos y preguntamos cuál es el punto más cercano a [1,1,1]:

>>> import numpy as np
>>> samples = [[0., 0., 0.], [0., .5, 0.], [1., 1., .5]]
>>> from sklearn.neighbors import NearestNeighbors
>>> neigh = NearestNeighbors(radius=1.6)
>>> neigh.fit(samples)
NearestNeighbors(radius=1.6)
>>> rng = neigh.radius_neighbors([[1., 1., 1.]])
>>> print(np.asarray(rng[0][0]))
[1.5 0.5]
>>> print(np.asarray(rng[1][0]))
[1 2]

El primer arreglo devuelto contiene las distancias a todos los puntos más cercanos a 1.6, mientras que el segundo arreglo devuelto contiene sus índices. En general, se pueden consultar varios puntos al mismo tiempo.

radius_neighbors_graph()

Calcula el gráfico (ponderado) de vecinos para los puntos de X

Los vecindarios son los puntos restringidos a una distancia inferior al radio.

Parámetros
Xarray-like de forma (n_samples, n_features), default=None

El punto o puntos de la consulta. Si no se proporciona, se devuelven los vecinos de cada punto indexado. En este caso, el punto de consulta no se considera su propio vecino.

radiusflotante, default=None

Radio de los vecindarios. El valor predeterminado es pasado al constructor.

mode{“connectivity”, “distance”}, default=”connectivity”

Tipo de matriz devuelta: “connectivity” devolverá la matriz de conectividad con unos y ceros, en “distance” los bordes son la distancia euclidiana entre puntos.

sort_resultsbooleano, default=False

Si es True, en cada fila del resultado, las entradas que no sean de cero se ordenarán aumentando las distancias. Si es False, las entradas que no sean de cero no pueden ser ordenadas. Sólo se utiliza con mode=”distance”.

Nuevo en la versión 0.22.

Devuelve
Amatriz dispersa de forma (n_queries, n_samples_fit)

n_samples_fit es el número de muestras en los datos especificados A[i, j] se le asigna la ponderación de borde que conecta i a j. La matriz si de formato CSR.

Ver también

kneighbors_graph

Ejemplos

>>> X = [[0], [3], [1]]
>>> from sklearn.neighbors import NearestNeighbors
>>> neigh = NearestNeighbors(radius=1.5)
>>> neigh.fit(X)
NearestNeighbors(radius=1.5)
>>> A = neigh.radius_neighbors_graph(X)
>>> A.toarray()
array([[1., 0., 1.],
       [0., 1., 0.],
       [1., 0., 1.]])
set_params()

Establece los parámetros de este estimador.

El método funciona tanto con estimadores simples como en objetos anidados (como Pipeline). Estos últimos tienen parámetros de la forma <component>__<parameter> para que sea posible actualizar cada componente de un objeto anidado.

Parámetros
**paramsdict

Parámetros del estimador.

Devuelve
selfinstancia del estimador

Instancia de estimador.

transform()

Calcula el gráfico (ponderado) de vecinos para los puntos de X

Parámetros
Xarray-like de forma (n_samples_transform, n_features)

Datos de muestra

Devuelve
Xtmatriz dispersa de forma (n_samples_transform, n_samples_fit)

A Xt[i, j] se le asigna la poderación del borde que conecta i con j. Sólo los vecinos tienen un valor explícito. La diagonal es siempre explícita. La matriz tiene el formato CSR.