sklearn.datasets
.load_files¶
- sklearn.datasets.load_files()¶
Carga archivos de texto con categorías como nombres de subcarpetas.
Se asume que las muestras individuales son archivos almacenados en una estructura de carpetas de dos niveles como la siguiente:
- carpeta_contenedora/
- carpeta_categoría_1/
archivo_1.txt archivo_2.txt … archivo_42.txt
- carpeta_categoría_2/
archivo_43.txt archivo_44.txt …
Los nombres de las carpetas se utilizan como nombres de etiquetas de señales supervisadas. Los nombres de los archivos individuales no son importantes.
Esta función no intenta extraer características en un arreglo numpy o en una matriz dispersa scipy. Además, si load_content es falso no intenta cargar los archivos en memoria.
Para utilizar archivos de texto en un algoritmo de clasificación o conglomerado de scikit-learn, tendrás que utilizar el módulo :mod`~sklearn.feature_extraction.text` para construir un transformador de extracción de características que se adapte a tu problema.
Si estableces load_content=True, también debes especificar la codificación del texto utilizando el parámetro “encoding”. Para muchos archivos de texto modernos, “utf-8” será la codificación correcta. Si dejas la codificación igual a None, entonces el contenido estará hecho de bytes en lugar de Unicode, y no podrás utilizar la mayoría de las funciones de
text
.Deberían construirse extractores de características similares para otro tipo de entrada de datos no estructurados, como imágenes, audio, vídeo, …
Leer más en el Manual de Usuario.
- Parámetros
- container_pathstr o unicode
Ruta de acceso a la carpeta principal que contiene una subcarpeta por categoría
- descriptionstr o unicode, default=None
Un párrafo que describe las características del conjunto de datos: su fuente, referencia, etc.
- categorieslista de cadenas, default=None
Si es None (predeterminado), carga todas las categorías. Si no es None, lista de nombres de categorías a cargar (otras categorías ignoradas).
- load_contentbool, default=True
Si se carga o no el contenido de los diferentes archivos. Si es verdadero, un atributo “data” que contiene la información de texto está presente en la estructura de datos devuelta. Si no, un atributo filenames da la ruta a los archivos.
- shufflebool, default=True
Si se revuelven o no los datos: puede ser importante para los modelos que suponen que las muestras son independientes e idénticamente distribuidas (i.i.d.), como el descenso de gradiente estocástico.
- encodingstr, default=None
Si es None, no intenta decodificar el contenido de los archivos (por ejemplo, para imágenes u otro contenido no textual). Si no es None, codificación a utilizar para decodificar los archivos de texto a Unicode si load_content es True.
- decode_error{“strict”, “ignore”, “replace”}, default=”strict”
Instrucción sobre qué hacer si se da una secuencia de bytes para analizar que contiene caracteres que no son del
encoding
dado. Se pasa como argumento de palabra claveerrors
a bytes.decode.- random_stateint, instancia de RandomState o None, default=0
Determina la generación de números aleatorios para revolver el conjunto de datos. Pasa un int para una salida reproducible a través de múltiples llamadas a la función. Ver Glosario.
- Devuelve
- data
Bunch
Objeto dictionary-like, con los siguientes atributos.
- datalist de str
Sólo está presente cuando
load_content=True
. Los datos de texto en bruto para aprender.- objetivondarray
Las etiquetas objetivo (índice entero).
- target_nameslist
Los nombres de las clases objetivo.
- DESCRstr
La descripción completa del conjunto de datos.
- filenames: ndarray
Los nombres de archivo que contienen el conjunto de datos.
- data