sklearn.datasets.load_files

sklearn.datasets.load_files()

Carga archivos de texto con categorías como nombres de subcarpetas.

Se asume que las muestras individuales son archivos almacenados en una estructura de carpetas de dos niveles como la siguiente:

carpeta_contenedora/
carpeta_categoría_1/

archivo_1.txt archivo_2.txt … archivo_42.txt

carpeta_categoría_2/

archivo_43.txt archivo_44.txt …

Los nombres de las carpetas se utilizan como nombres de etiquetas de señales supervisadas. Los nombres de los archivos individuales no son importantes.

Esta función no intenta extraer características en un arreglo numpy o en una matriz dispersa scipy. Además, si load_content es falso no intenta cargar los archivos en memoria.

Para utilizar archivos de texto en un algoritmo de clasificación o conglomerado de scikit-learn, tendrás que utilizar el módulo :mod`~sklearn.feature_extraction.text` para construir un transformador de extracción de características que se adapte a tu problema.

Si estableces load_content=True, también debes especificar la codificación del texto utilizando el parámetro “encoding”. Para muchos archivos de texto modernos, “utf-8” será la codificación correcta. Si dejas la codificación igual a None, entonces el contenido estará hecho de bytes en lugar de Unicode, y no podrás utilizar la mayoría de las funciones de text.

Deberían construirse extractores de características similares para otro tipo de entrada de datos no estructurados, como imágenes, audio, vídeo, …

Leer más en el Manual de Usuario.

Parámetros
container_pathstr o unicode

Ruta de acceso a la carpeta principal que contiene una subcarpeta por categoría

descriptionstr o unicode, default=None

Un párrafo que describe las características del conjunto de datos: su fuente, referencia, etc.

categorieslista de cadenas, default=None

Si es None (predeterminado), carga todas las categorías. Si no es None, lista de nombres de categorías a cargar (otras categorías ignoradas).

load_contentbool, default=True

Si se carga o no el contenido de los diferentes archivos. Si es verdadero, un atributo “data” que contiene la información de texto está presente en la estructura de datos devuelta. Si no, un atributo filenames da la ruta a los archivos.

shufflebool, default=True

Si se revuelven o no los datos: puede ser importante para los modelos que suponen que las muestras son independientes e idénticamente distribuidas (i.i.d.), como el descenso de gradiente estocástico.

encodingstr, default=None

Si es None, no intenta decodificar el contenido de los archivos (por ejemplo, para imágenes u otro contenido no textual). Si no es None, codificación a utilizar para decodificar los archivos de texto a Unicode si load_content es True.

decode_error{“strict”, “ignore”, “replace”}, default=”strict”

Instrucción sobre qué hacer si se da una secuencia de bytes para analizar que contiene caracteres que no son del encoding dado. Se pasa como argumento de palabra clave errors a bytes.decode.

random_stateint, instancia de RandomState o None, default=0

Determina la generación de números aleatorios para revolver el conjunto de datos. Pasa un int para una salida reproducible a través de múltiples llamadas a la función. Ver Glosario.

Devuelve
dataBunch

Objeto dictionary-like, con los siguientes atributos.

datalist de str

Sólo está presente cuando load_content=True. Los datos de texto en bruto para aprender.

objetivondarray

Las etiquetas objetivo (índice entero).

target_nameslist

Los nombres de las clases objetivo.

DESCRstr

La descripción completa del conjunto de datos.

filenames: ndarray

Los nombres de archivo que contienen el conjunto de datos.