sklearn.datasets.fetch_20newsgroups

sklearn.datasets.fetch_20newsgroups()

Cargar los nombres de archivo y los datos del conjunto de datos de 20 grupos de noticias (clasificación).

Descargar si es necesario.

Clases

20

Total de muestras

18846

Dimensionalidad

1

Características

texto

Lee más en el Manual de usuario.

Parámetros
data_homestr, default=None

Especificar una carpeta de descarga y caché para los conjuntos de datos. Si es None, todos los datos de scikit-learn se almacenan en las subcarpetas “~/scikit_learn_data”.

subset{“train”, “test”, “all”}, default=”train”

Seleccionar el conjunto de datos a cargar: “train” para el conjunto de entrenamiento, “test” para el conjunto de prueba, “all” para ambos, con ordenación aleatoria.

categoriesarray-like, dtype=str o unicode, default=None

Si es None (predeterminado), carga todas las categorías. Si no es Ninguno, lista de nombres de categorías a cargar (otras categorías ignoradas).

shufflebool, default=True

Si se barajan o no los datos: puede ser importante para los modelos que asumen que las muestras son independientes e idénticamente distribuidas (i.i.d.), como el descenso de gradiente estocástico.

random_stateint, instancia de RandomState o None, default=None

Determina la generación de números aleatorios para barajar el conjunto de datos. Pase un int para una salida reproducible a través de múltiples llamadas a la función. Ver Glosario.

removetuple, default=()

Puede contener cualquier subconjunto de (“headers”, “footers”, “quotes”). Cada uno de ellos es un tipo de texto que será detectado y eliminado de los mensajes del grupo de noticias, evitando que los clasificadores se ajusten demasiado a los metadatos.

“headers” elimina las cabeceras de los grupos de noticias, “footers” elimina los bloques al final de los mensajes que parecen firmas, y “quotes” elimina las líneas que parecen citar otro mensaje.

“headers” sigue un estándar exacto; los otros filtros no siempre son correctos.

download_if_missingbool, default=True

Si es False, lanza un IOError si los datos no están disponibles localmente en lugar de intentar descargar los datos desde el sitio de origen.

return_X_ybool, default=False

Si es True, devuelve (data.data, data.target) en lugar de un objeto Bunch.

Nuevo en la versión 0.22.

Devuelve
bunchBunch

Objeto tipo diccionario, con los siguientes atributos.

datoslista de forma (n_samples,)

La lista de datos a aprender.

target: de forma (n_samples,)

Las etiquetas de destino.

nombres de archivo: lista de forma (n_samples,)

La ruta de acceso a la ubicación de los datos.

DESCR: str

La descripción completa del conjunto de datos.

target_names: lista de forma (n_classes,)

Los nombres de las clases de destino.

(data, target) : tuple si return_X_y=Truetupla si

Nuevo en la versión 0.22.

Ejemplos utilizando sklearn.datasets.fetch_20newsgroups