sklearn.datasets
.fetch_rcv1¶
- sklearn.datasets.fetch_rcv1()¶
Carga el conjunto de datos RCV1 multilabel (clasificación).
Descargar si es necesario.
Versión: RCV1-v2, vectores, conjuntos completos, temas multilabels.
Clases
103
Total de muestras
804414
Dimensionalidad
47236
Características
real, entre 0 y 1
Lee más en el Manual de usuario.
Nuevo en la versión 0.17.
- Parámetros
- data_homestr, default=None
Especifique otra carpeta de descarga y caché para los conjuntos de datos. Por defecto, todos los datos de scikit-learn se almacenan en las subcarpetas “~/scikit_learn_data”.
- subconjunto{“train”, “test”, “all”}, default=”all”
Seleccione el conjunto de datos a cargar: “train” para el conjunto de entrenamiento (23149 muestras), “test” para el conjunto de prueba (781265 muestras), “all” para ambos, con las muestras de entrenamiento primero si shuffle es False. Esto sigue la división cronológica oficial de LYRL2004.
- download_if_missingbool, default=True
Si es False, lanza un IOError si los datos no están disponibles localmente en lugar de intentar descargar los datos del sitio de origen.
- random_stateentero, instancia de RandomState o None, por defecto=None
Determina la generación de números aleatorios para barajar el conjunto de datos. Pase un int para una salida reproducible a través de múltiples llamadas a la función. Ver Glosario.
- shufflebool, default=False
Si se baraja el conjunto de datos.
- return_X_ybool, default=False
Si es True, devuelve
(dataset.data, dataset.target)
en lugar de un objeto Bunch. Véase más abajo para más información sobre el objetodataset.data
ydataset.target
.Nuevo en la versión 0.20.
- Devuelve
- dataset
Bunch
Objeto tipo diccionario, con los siguientes atributos.
- datosmatriz dispersa de forma (804414, 47236), dtype=np.float64
La matriz tiene un 0,16% de valores no nulos. Tendrá formato CSR.
- objetivomatriz dispersa de forma (804414, 103), dtype=np.uint8
Cada muestra tiene un valor de 1 en sus categorías, y 0 en las demás. El arreglo tiene un 3,15% de valores no nulos. Tendrá el formato CSR.
- sample_idndarray de forma (804414,), dtype=np.uint32,
Número de identificación de cada muestra, como se ordena en dataset.data.
- target_namesndarray de forma (103,), dtype=object
Nombres de cada objetivo (temas RCV1), como se ordenan en dataset.target.
- DESCRstr
Descripción del conjunto de datos RCV1.
- (data, target) : tuple if ``return_X_y``eis Truetupla si
Nuevo en la versión 0.20.
- dataset