7. Herramientas de carga de conjuntos de datos¶
El paquete sklearn.datasets
incorpora algunos pequeños conjuntos de datos de prueba, tal y como se introdujo en la sección Iniciando.
Este paquete también incluye ayudas para obtener conjuntos de datos más grandes comúnmente utilizados por la comunidad de aprendizaje automático para comparar algoritmos con datos que provienen del “mundo real”.
Para evaluar el impacto de la escala del conjunto de datos (n_samples
y n_features
) mientras se controlan las propiedades estadísticas de los datos (normalmente la correlación y la informatividad de las características), también es posible generar datos sintéticos.
API de conjunto de datos generales. Hay tres tipos principales de interfaces de datos que pueden ser usados para obtener conjuntos de datos dependiendo del tipo de datos deseado.
Los cargadores de conjuntos de datos. Pueden utilizarse para cargar pequeños conjuntos de datos estándar, descritos en la sección Conjuntos de datos de juguetes.
Los recolectores de conjuntos de datos. Pueden ser usados para descargar y cargar conjuntos de datos más grandes, descritos en la sección Conjuntos de datos del mundo real.
Tanto las funciones cargadoras como recolectoras devuelven un objeto Bunch
que contiene al menos dos elementos: una arreglo de la forma n_samples
* n_features
con la clave data
(excepto 20newsgroups) y un arreglo de numpy de longitud n_samples
, que contiene los valores de destino, con la clave target
.
El objeto Bunch es un diccionario que expone sus claves como atributos. Para más información sobre el objeto Bunch, vea Bunch
.
También es posible que casi todas estas funciones limiten la salida a ser una tupla que contenga sólo los datos y el objetivo, estableciendo el parámetro return_X_y
a True
.
Los conjuntos de datos también contienen una descripción completa en su atributo DESCR
y algunos contienen feature_names
y target_names
. Ver las descripciones del conjunto de datos a continuación para más detalles.
Las funciones de generación de conjuntos de datos. Pueden utilizarse para generar conjuntos de datos sintéticos controlados, descritos en la sección Conjuntos de datos generados.
Estas funciones devuelven una tupla (X, y)
que consiste de un arreglo de numpy X
de n_samples
* n_features
y un arreglo de longitud n_samples
que contiene los objetivos y
.
Además, también hay varias herramientas para cargar conjuntos de datos de otros formatos o desde otras ubicaciones, descritas en la sección Cargando otros conjuntos de datos.
- 7.1. Conjuntos de datos de juguetes
- 7.1.1. Conjunto de datos sobre los precios de la vivienda en Boston
- 7.1.2. Conjunto de datos de plantas de lirio
- 7.1.3. Conjunto de datos sobre la diabetes
- 7.1.4. Conjunto de datos de reconocimiento óptico de dígitos manuscritos
- 7.1.5. Conjunto de datos de Linnerrud
- 7.1.6. Conjunto de datos de reconocimiento de vinos
- 7.1.7. Conjunto de datos sobre el cáncer de mama en Wisconsin (diagnóstico)
- 7.2. Conjuntos de datos del mundo real
- 7.2.1. El conjunto de datos de caras Olivetti
- 7.2.2. El conjunto de datos de texto de 20 grupos de noticias
- 7.2.3. El conjunto de datos de reconocimiento facial Labeled Faces in the Wild
- 7.2.4. Tipos de cobertura forestal
- 7.2.5. Conjunto de datos RCV1
- 7.2.6. Conjunto de datos Kddcup 99
- 7.2.7. Conjunto de datos California Housing
- 7.3. Conjuntos de datos generados
- 7.4. Cargando otros conjuntos de datos