sklearn.datasets
.fetch_20newsgroups¶
- sklearn.datasets.fetch_20newsgroups()¶
Cargar los nombres de archivo y los datos del conjunto de datos de 20 grupos de noticias (clasificación).
Descargar si es necesario.
Clases
20
Total de muestras
18846
Dimensionalidad
1
Características
texto
Lee más en el Manual de usuario.
- Parámetros
- data_homestr, default=None
Especificar una carpeta de descarga y caché para los conjuntos de datos. Si es None, todos los datos de scikit-learn se almacenan en las subcarpetas “~/scikit_learn_data”.
- subset{“train”, “test”, “all”}, default=”train”
Seleccionar el conjunto de datos a cargar: “train” para el conjunto de entrenamiento, “test” para el conjunto de prueba, “all” para ambos, con ordenación aleatoria.
- categoriesarray-like, dtype=str o unicode, default=None
Si es None (predeterminado), carga todas las categorías. Si no es Ninguno, lista de nombres de categorías a cargar (otras categorías ignoradas).
- shufflebool, default=True
Si se barajan o no los datos: puede ser importante para los modelos que asumen que las muestras son independientes e idénticamente distribuidas (i.i.d.), como el descenso de gradiente estocástico.
- random_stateint, instancia de RandomState o None, default=None
Determina la generación de números aleatorios para barajar el conjunto de datos. Pase un int para una salida reproducible a través de múltiples llamadas a la función. Ver Glosario.
- removetuple, default=()
Puede contener cualquier subconjunto de (“headers”, “footers”, “quotes”). Cada uno de ellos es un tipo de texto que será detectado y eliminado de los mensajes del grupo de noticias, evitando que los clasificadores se ajusten demasiado a los metadatos.
“headers” elimina las cabeceras de los grupos de noticias, “footers” elimina los bloques al final de los mensajes que parecen firmas, y “quotes” elimina las líneas que parecen citar otro mensaje.
“headers” sigue un estándar exacto; los otros filtros no siempre son correctos.
- download_if_missingbool, default=True
Si es False, lanza un IOError si los datos no están disponibles localmente en lugar de intentar descargar los datos desde el sitio de origen.
- return_X_ybool, default=False
Si es True, devuelve
(data.data, data.target)
en lugar de un objeto Bunch.Nuevo en la versión 0.22.
- Devuelve
- bunch
Bunch
Objeto tipo diccionario, con los siguientes atributos.
- datoslista de forma (n_samples,)
La lista de datos a aprender.
- target: de forma (n_samples,)
Las etiquetas de destino.
- nombres de archivo: lista de forma (n_samples,)
La ruta de acceso a la ubicación de los datos.
- DESCR: str
La descripción completa del conjunto de datos.
- target_names: lista de forma (n_classes,)
Los nombres de las clases de destino.
- (data, target) : tuple si
return_X_y=True
tupla si Nuevo en la versión 0.22.
- bunch