7. Herramientas de carga de conjuntos de datos¶

El paquete sklearn.datasets incorpora algunos pequeños conjuntos de datos de prueba, tal y como se introdujo en la sección Iniciando.

Este paquete también incluye ayudas para obtener conjuntos de datos más grandes comúnmente utilizados por la comunidad de aprendizaje automático para comparar algoritmos con datos que provienen del “mundo real”.

Para evaluar el impacto de la escala del conjunto de datos (n_samples y n_features) mientras se controlan las propiedades estadísticas de los datos (normalmente la correlación y la informatividad de las características), también es posible generar datos sintéticos.

API de conjunto de datos generales. Hay tres tipos principales de interfaces de datos que pueden ser usados para obtener conjuntos de datos dependiendo del tipo de datos deseado.

Los cargadores de conjuntos de datos. Pueden utilizarse para cargar pequeños conjuntos de datos estándar, descritos en la sección Conjuntos de datos de juguetes.

Los recolectores de conjuntos de datos. Pueden ser usados para descargar y cargar conjuntos de datos más grandes, descritos en la sección Conjuntos de datos del mundo real.

Tanto las funciones cargadoras como recolectoras devuelven un objeto Bunch que contiene al menos dos elementos: una arreglo de la forma n_samples * n_features con la clave data (excepto 20newsgroups) y un arreglo de numpy de longitud n_samples, que contiene los valores de destino, con la clave target.

El objeto Bunch es un diccionario que expone sus claves como atributos. Para más información sobre el objeto Bunch, vea Bunch.

También es posible que casi todas estas funciones limiten la salida a ser una tupla que contenga sólo los datos y el objetivo, estableciendo el parámetro return_X_y a True.

Los conjuntos de datos también contienen una descripción completa en su atributo DESCR y algunos contienen feature_names y target_names. Ver las descripciones del conjunto de datos a continuación para más detalles.

Las funciones de generación de conjuntos de datos. Pueden utilizarse para generar conjuntos de datos sintéticos controlados, descritos en la sección Conjuntos de datos generados.

Estas funciones devuelven una tupla (X, y) que consiste de un arreglo de numpy X de n_samples * n_features y un arreglo de longitud n_samples que contiene los objetivos y.

Además, también hay varias herramientas para cargar conjuntos de datos de otros formatos o desde otras ubicaciones, descritas en la sección Cargando otros conjuntos de datos.