`sklearn.datasets`.fetch_rcv1¶

sklearn.datasets.fetch_rcv1()¶

Carga el conjunto de datos RCV1 multilabel (clasificación).

Descargar si es necesario.

Versión: RCV1-v2, vectores, conjuntos completos, temas multilabels.

Nuevo en la versión 0.17.

Parámetros

data_homestr, default=None: Especifique otra carpeta de descarga y caché para los conjuntos de datos. Por defecto, todos los datos de scikit-learn se almacenan en las subcarpetas “~/scikit_learn_data”.
subconjunto{“train”, “test”, “all”}, default=”all”: Seleccione el conjunto de datos a cargar: “train” para el conjunto de entrenamiento (23149 muestras), “test” para el conjunto de prueba (781265 muestras), “all” para ambos, con las muestras de entrenamiento primero si shuffle es False. Esto sigue la división cronológica oficial de LYRL2004.
download_if_missingbool, default=True: Si es False, lanza un IOError si los datos no están disponibles localmente en lugar de intentar descargar los datos del sitio de origen.
random_stateentero, instancia de RandomState o None, por defecto=None: Determina la generación de números aleatorios para barajar el conjunto de datos. Pase un int para una salida reproducible a través de múltiples llamadas a la función. Ver Glosario.
shufflebool, default=False: Si se baraja el conjunto de datos.
return_X_ybool, default=False: Si es True, devuelve (dataset.data, dataset.target) en lugar de un objeto Bunch. Véase más abajo para más información sobre el objeto dataset.data y dataset.target.

Nuevo en la versión 0.20.

Devuelve

datasetBunch

Objeto tipo diccionario, con los siguientes atributos.

datosmatriz dispersa de forma (804414, 47236), dtype=np.float64: La matriz tiene un 0,16% de valores no nulos. Tendrá formato CSR.
objetivomatriz dispersa de forma (804414, 103), dtype=np.uint8: Cada muestra tiene un valor de 1 en sus categorías, y 0 en las demás. El arreglo tiene un 3,15% de valores no nulos. Tendrá el formato CSR.
sample_idndarray de forma (804414,), dtype=np.uint32,: Número de identificación de cada muestra, como se ordena en dataset.data.
target_namesndarray de forma (103,), dtype=object: Nombres de cada objetivo (temas RCV1), como se ordenan en dataset.target.
DESCRstr: Descripción del conjunto de datos RCV1.

(data, target) : tuple if ``return_X_y``eis Truetupla si

Nuevo en la versión 0.20.

sklearn.datasets.fetch_rcv1¶