sklearn.datasets.fetch_rcv1

sklearn.datasets.fetch_rcv1()

Carga el conjunto de datos RCV1 multilabel (clasificación).

Descargar si es necesario.

Versión: RCV1-v2, vectores, conjuntos completos, temas multilabels.

Clases

103

Total de muestras

804414

Dimensionalidad

47236

Características

real, entre 0 y 1

Lee más en el Manual de usuario.

Nuevo en la versión 0.17.

Parámetros
data_homestr, default=None

Especifique otra carpeta de descarga y caché para los conjuntos de datos. Por defecto, todos los datos de scikit-learn se almacenan en las subcarpetas “~/scikit_learn_data”.

subconjunto{“train”, “test”, “all”}, default=”all”

Seleccione el conjunto de datos a cargar: “train” para el conjunto de entrenamiento (23149 muestras), “test” para el conjunto de prueba (781265 muestras), “all” para ambos, con las muestras de entrenamiento primero si shuffle es False. Esto sigue la división cronológica oficial de LYRL2004.

download_if_missingbool, default=True

Si es False, lanza un IOError si los datos no están disponibles localmente en lugar de intentar descargar los datos del sitio de origen.

random_stateentero, instancia de RandomState o None, por defecto=None

Determina la generación de números aleatorios para barajar el conjunto de datos. Pase un int para una salida reproducible a través de múltiples llamadas a la función. Ver Glosario.

shufflebool, default=False

Si se baraja el conjunto de datos.

return_X_ybool, default=False

Si es True, devuelve (dataset.data, dataset.target) en lugar de un objeto Bunch. Véase más abajo para más información sobre el objeto dataset.data y dataset.target.

Nuevo en la versión 0.20.

Devuelve
datasetBunch

Objeto tipo diccionario, con los siguientes atributos.

datosmatriz dispersa de forma (804414, 47236), dtype=np.float64

La matriz tiene un 0,16% de valores no nulos. Tendrá formato CSR.

objetivomatriz dispersa de forma (804414, 103), dtype=np.uint8

Cada muestra tiene un valor de 1 en sus categorías, y 0 en las demás. El arreglo tiene un 3,15% de valores no nulos. Tendrá el formato CSR.

sample_idndarray de forma (804414,), dtype=np.uint32,

Número de identificación de cada muestra, como se ordena en dataset.data.

target_namesndarray de forma (103,), dtype=object

Nombres de cada objetivo (temas RCV1), como se ordenan en dataset.target.

DESCRstr

Descripción del conjunto de datos RCV1.

(data, target) : tuple if ``return_X_y``eis Truetupla si

Nuevo en la versión 0.20.