7.1. Conjuntos de datos de juguetes

scikit-learn viene con unos pequeños conjuntos de datos estándar que no requieren descargar ningún archivo de algún sitio web externo.

Se pueden cargar mediante las siguientes funciones:

load_boston(*[, return_X_y])

Carga y devuelve el conjunto de datos de precios de viviendas de Boston (regresión).

load_iris(*[, return_X_y, as_frame])

Carga y devuelve el conjunto de datos de iris (clasificación).

load_diabetes(*[, return_X_y, as_frame])

Carga y devuelve el conjunto de datos de la diabetes (regresión).

load_digits(*[, n_class, return_X_y, as_frame])

Carga y devuelve el conjunto de datos de dígitos (clasificación).

load_linnerud(*[, return_X_y, as_frame])

Carga y devuelve el conjunto de datos linnerud de ejercicio físico.

load_wine(*[, return_X_y, as_frame])

Carga y devuelve el conjunto de datos de vino (clasificación).

load_breast_cancer(*[, return_X_y, as_frame])

Carga y devuelve el conjunto de datos de cáncer de mama de Wisconsin (clasificación).

Estos conjuntos de datos son útiles para ilustrar rápidamente el comportamiento de los diversos algoritmos implementados en scikit-learn. Sin embargo, suelen ser demasiado pequeños para ser representativos de las tareas de aprendizaje automático del mundo real.

7.1.1. Conjunto de datos sobre los precios de la vivienda en Boston

Características del conjunto de datos:

Número de instancias

506

Número de atributos

13 predictivo numérico/categórico. El valor de la mediana (atributo 14) suele ser el objetivo.

Información del atributo (en orden)
  • CRIM tasa de criminalidad per cápita por ciudad

  • ZN proporción de suelo residencial zonificado para lotes de más de 25.000 pies cuadrados.

  • INDUS proporción de acres comerciales no minoristas por ciudad

  • CHAS Variable dummy de Charles River (= 1 si el tramo limita con el río; 0 en caso contrario)

  • NOX concentración de óxidos nítricos (partes por 10 millones)

  • RM número promedio de habitaciones por vivienda

  • AGE proporción de unidades ocupadas por sus propietarios construidas antes de 1940

  • DIS distancias ponderadas a cinco centros de empleo de Boston

  • RAD índice de accesibilidad a las autopistas radiales

  • TAX tasa de impuesto sobre la propiedad de valor total por 10.000 dólares

  • PTRATIO ratio alumno-profesor por ciudad

  • B 1000(Bk - 0,63)^2 donde Bk es la proporción de negros por ciudad

  • LSTAT % estatus inferior de la población

  • MEDV Mediana del valor de las viviendas ocupadas por sus propietarios en miles de dólares

Valores de atributos que faltan

Ninguno

Creador

Harrison, D. y Rubinfeld, D.L.

Esta es una copia del conjunto de datos de UCI ML. https://archive.ics.uci.edu/ml/machine-learning-databasases/housing/

Este conjunto de datos se ha tomado de la biblioteca StatLib que se mantiene en la Universidad Carnegie Mellon.

The Boston house-price data of Harrison, D. y Rubinfeld, D.L. “Hedonic prices and the demand for clean air”, J. Environ. Economics & Management, vol.5, 81-102, 1978. Utilizado en Belsley, Kuh & Welsch, “Regression diagnostics …”, Wiley, 1980. , en la tabla de páginas 244-261 de estas últimas se utilizan transformaciones variadas.

Los datos de precios de la vivienda en Boston se han utilizado en muchos documentos de aprendizaje automático que abordan problemas de regresión.

Referencias

  • Belsley, Kuh & Welsch, “Regression diagnostics: Identifying Influential Data and Sources of Collinearity”, Wiley, 1980. 244-261.

  • Quinlan,R. (1993). Combining Instance-Based and Model-Based Learning. In Proceedings on the Tenth International Conference of Machine Learning, 236-243, University of Massachusetts, Amherst. Morgan Kaufmann.

7.1.2. Conjunto de datos de plantas de lirio

Características del conjunto de datos:

Número de instancias

150 (50 en cada una de tres clases)

Número de atributos

4 atributos numéricos, predictivos y la clase

Información de atributo
  • longitud de los sépalos en cm

  • ancho de los sépalos en cm

  • longitud de los pétalos en cm

  • ancho de los pétalos en cm

  • clase:
    • Iris-Setosa

    • Iris-Versicolour

    • Iris-Virginica

Resumen estadístico

longitud del sepal:

4.3

7.9

5.84

0.83

0.7826

ancho de los sépalos:

2.0

4.4

3.05

0.43

-0.4194

longitud de los pétalos:

1.0

6.9

3.76

1.76

0.9490 (¡máximo!)

ancho de los pétalos:

0.1

2.5

1.20

0.76

0.9565 (¡máximo!)

Valores de atributos que faltan

Ninguno

Distribución según clase

33,3% para cada una de 3 clases.

Creador

R.A. Fisher

Donante

Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)

Fecha

Julio de 1988

La famosa base de datos Iris, utilizada por primera vez por Sir R.A. Fisher. El conjunto de datos está tomado del artículo de Fisher. Obsérvese que es el mismo que en R, pero no el del Repositorio de Aprendizaje Automático de la UCI, que tiene dos puntos de datos erróneos.

Esta es quizás la base de datos más conocida que se encuentra en la literatura de reconocimiento de patrones. El artículo de Fisher es un clásico en este campo y se cita con frecuencia hasta el día de hoy. (Ver Duda y Hart, por ejemplo.) El conjunto de datos contiene 3 clases de 50 casos cada una, donde cada clase se refiere a un tipo de planta de iris. Una de las clases es linealmente separable de las otras 2; las últimas NO son linealmente separables entre sí.

Referencias

  • Fisher, R.A. «The use of multiple measurements in taxonomic problems» Annual Eugenics, 7, Part II, 179-188 (1936); también en «Contributions to Mathematical Statistics» (John Wiley, NY, 1950).

  • Duda, R.O., & Hart, P.E. (1973) Pattern Classification and Scene Analysis. (Q327.D83) John Wiley & Sons. ISBN 0-471-22361-1. Ver página 218.

  • Dasarathy, B.V. (1980) «Nosing Around the Neighborhood: A New System Structure and Classification Rule for Recognition in Partially Exposed Environments». IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. PAMI-2, No. 1, 67-71.

  • Gates, G.W. (1972) «The Reduced Nearest Neighbor Rule». IEEE Transactions on Information Theory, May 1972, 431-433.

  • Ver también: 1988 MLC Proceedings, 54-64. Cheeseman et al»s AUTOCLASS II conceptual clustering system finds 3 classes in the data.

  • Muchos, muchos más…

7.1.3. Conjunto de datos sobre la diabetes

Se obtuvieron diez variables basales, edad, sexo, índice de masa corporal, presión arterial media y seis mediciones de suero sanguíneo para cada uno de los n = 442 pacientes con diabetes, así como la respuesta de interés, una medida cuantitativa de la progresión de la enfermedad un año después de la línea de base.

Características del conjunto de datos:

Número de instancias

442

Número de atributos

Las primeras 10 columnas son valores predictivos numéricos

Objetivo

La columna 11 es una medida cuantitativa del avance de la enfermedad un año después de la línea base

Información de atributo
  • edad edad en años

  • sexo

  • IMC Índice de masa corporal

  • pb presión arterial media

  • s1 tc, células T (un tipo de glóbulos blancos)

  • s2 ldl, lipoproteínas de baja densidad

  • s3 hdl, lipoproteínas de alta densidad

  • s4 tch, hormona estimulante del tiroides

  • s5 ltg, lamotrigina

  • s6 glu, nivel de azúcar en sangre

Nota: Cada una de estas 10 variables de características se ha centrado en la media y se ha escalado por la desviación estándar multiplicada por n_samples (es decir, la suma de los cuadrados de cada columna suma 1).

URL de fuente: https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html

Para más información ver: Bradley Efron, Trevor Hastie, Iain Johnstone y Robert Tibshirani (2004) «Regresión del menor ángulo», Annals of StStatiss (con discusión), 407-499. (https://web.stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf)

7.1.4. Conjunto de datos de reconocimiento óptico de dígitos manuscritos

Características del conjunto de datos:

Número de instancias

1797

Número de atributos

64

Información de atributo

Imagen 8x8 de píxeles enteros en el rango 0..16.

Valores de atributos que faltan

Ninguno

Creador
  1. Alpaydin (alpaydin “@” boun.edu.tr)

Fecha

Julio de 1998

Esta es una copia del conjunto de pruebas de los dígitos escritos a manos de UCI ML https://archive.ics.uci.edu/ml/datasets/Optical+Reconocimiento+of+Handwritten+Digitos

El conjunto de datos contiene imágenes de dígitos escritos a mano: 10 clases donde cada clase se refiere a un dígito.

Se utilizaron programas de preprocesamiento puestos a disposición por el NIST para extraer mapas de bits normalizados de dígitos manuscritos de un formulario preimpreso. De un total de 43 personas, 30 contribuyeron al conjunto de entrenamiento y otras 13 al conjunto de prueba. Los mapas de bits de 32x32 se dividen en bloques no superpuestos de 4x4 y se cuenta el número de píxeles en cada bloque. Esto genera una matriz de entrada de 8x8 en la que cada elemento es un número entero en el rango 0..16. Esto reduce la dimensionalidad y da invariabilidad a pequeñas distorsiones.

For info on NIST preprocessing routines, see M. D. Garris, J. L. Blue, G. T. Candela, D. L. Dimmick, J. Geist, P. J. Grother, S. A. Janet, and C. L. Wilson, NIST Form-Based Handprint Recognition System, NISTIR 5469, 1994.

Referencias

  • C. Kaynak (1995) Methods of Combining Multiple Classifiers and Their Applications to Handwritten Digit Recognition, MSc Thesis, Institute of Graduate Studies in Science and Engineering, Bogazici University.

    1. Alpaydin, C. Kaynak (1998) Cascading Classifiers, Kybernetika.

  • Ken Tang and Ponnuthurai N. Suganthan and Xi Yao and A. Kai Qin. Linear dimensionalityreduction using relevance weighted LDA. School of Electrical and Electronic Engineering Nanyang Technological University. 2005.

  • Claudio Gentile. A New Approximate Maximal Margin Classification Algorithm. NIPS. 2000.

7.1.5. Conjunto de datos de Linnerrud

Características del conjunto de datos:

Número de instancias

20

Número de atributos

3

Valores de atributos que faltan

Ninguno

El conjunto de datos de Linnerud es un conjunto de datos de regresión de salida múltiple. Consta de tres variables de ejercicio (datos) y tres fisiológicas (objetivo) recogidas de veinte hombres de mediana edad en un club de fitness:

  • fisiológico - CSV que contiene 20 observaciones sobre 3 variables fisiológicas:

    Peso, cintura y pulso.

  • ejercicio - CSV que contiene 20 observaciones sobre 3 variables de ejercicio:

    Flexiones, sentadillas y saltos.

Referencias

  • Tenenhaus, M. (1998). La regression PLS: theorie et pratique. Paris: Editions Technic.

7.1.6. Conjunto de datos de reconocimiento de vinos

Características del conjunto de datos:

Número de instancias

178 (50 en cada una de tres clases)

Número de atributos

13 atributos numéricos, predictivos y la clase

Información de atributo
  • Alcohol

  • Ácido málico

  • Ceniza

  • Alcalinidad de la ceniza

  • Magnesio

  • Fenoles totales

  • Flavanoides

  • Fenoles no flavonoides

  • Proantocianinas

  • Intensidad de Color

  • Tonalidad

  • OD280/OD315 de vinos diluidos

  • Prolina

  • clase:
    • clase_0

    • clase_1

    • class_2

Resumen estadístico

Alcohol:

11.0

14.8

13

0,8

Ácido málico:

0.74

5.80

2.34

1.12

Ceniza:

1.36

3.23

2.36

0.27

Alcalinidad de la ceniza:

10.6

30.0

19.5

3.3

Magnesio:

70.0

162.0

99.7

14.3

Fenoles totales:

0.98

3.88

2.29

0.63

Flavanoides:

0.34

5.08

2.03

1.00

Fenoles no flavonoides:

0.13

0.66

0.36

0.12

Proantocianinas:

0.41

3.58

1.59

0.57

Intensidad de color:

1.3

13

5.1

2.3

Tonalidad:

0.48

1.71

0.96

0.23

OD280/OD315 de los vinos diluidos:

1.27

4.00

2.61

0.71

Prolina:

278

1680

746

315

Valores de atributos que faltan

Ninguno

Distribución según clase

clase_0 (59), class_1 (71), class_2 (48)

Creador

R.A. Fisher

Donante

Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)

Fecha

Julio de 1988

Esta es una copia de los conjuntos de datos de reconocimiento de Vinos de UCI ML. https://archive.ics.uci.edu/ml/machine-learning-databasases/wine/wine.data

Los datos son los resultados de un análisis químico de vinos cultivados en la misma región de Italia por tres cultivadores diferentes. Se han realizado trece mediciones diferentes de los distintos componentes presentes en los tres tipos de vino.

Propietarios originales:

Forina, M. et al, PARVUS - An Extendible Package for Data Exploration, Classification and Correlation. Institute of Pharmaceutical and Food Analysis and Technologies, Via Brigata Salerno, 16147 Genoa, Italy.

Cita:

Lichman, M. (2013). UCI Machine Learning Repository [https://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.

Referencias

(1) S. Aeberhard, D. Coomans and O. de Vel, Comparison of Classifiers in High Dimensional Settings, Tech. Rep. no. 92-02, (1992), Dept. of Computer Science and Dept. of Mathematics and Statistics, James Cook University of North Queensland. (Also submitted to Technometrics).

Los datos se utilizaron junto con otros muchos para comparar varios clasificadores. Las clases son separables, aunque sólo RDA ha logrado una clasificación correcta del 100%. (RDA : 100%, QDA 99,4%, LDA 98,9%, 1NN 96,1% (datos transformados en z)) (Todos los resultados utilizan la técnica de leave-one-out)

(2) S. Aeberhard, D. Coomans and O. de Vel, «THE CLASSIFICATION PERFORMANCE OF RDA» Tech. Rep. no. 92-01, (1992), Dept. of Computer Science and Dept. of Mathematics and Statistics, James Cook University of North Queensland. (Also submitted to Journal of Chemometrics).

7.1.7. Conjunto de datos sobre el cáncer de mama en Wisconsin (diagnóstico)

Características del conjunto de datos:

Número de instancias

569

Número de atributos

30 atributos numéricos, predictivos y la clase

Información de atributo
  • radio (media de las distancias del centro a los puntos del perímetro)

  • textura (desviación estándar de los valores de la escala de grises)

  • perímetro

  • área

  • suavidad (variación local de las longitudes de los radios)

  • compacidad (perímetro^2 / área - 1,0)

  • concavidad (gravedad de las partes cóncavas del contorno)

  • puntos cóncavos (número de porciones cóncavas del contorno)

  • simetría

  • dimensión fractal («aproximación de la línea costera» - 1)

Para cada imagen se calcularon la media, el error estándar y el «peor» o más grande (media de los tres peores / mayores valores) de estas características, lo que dio lugar a 30 características. Por ejemplo, el campo 0 es el radio medio, el campo 10 es el radio SE y el campo 20 es el peor radio.

  • clase:
    • WDBC-Malignant

    • WDBC-Benign

Resumen estadístico

radio (medio):

6.981

28.11

textura (media):

9.71

39.28

perímetro (media):

43.79

188.5

área (media):

143.5

2501.0

suavidad (media):

0.053

0.163

compactidad (media):

0.019

0.345

concavidad (media):

0.0

0.427

puntos cóncavos (media):

0.0

0.201

simetría (media):

0.106

0.304

dimensión fractal (media):

0.05

0.097

radio (error estándar):

0.112

2.873

textura (error estándar):

0.36

4.885

perímetro (error estándar):

0.757

21.98

área (error estándar):

6.802

542.2

suavidad (error estándar):

0.002

0.031

compacidad (error estándar):

0.002

0.135

concavidad (error estándar):

0.0

0.396

puntos cóncavos (error estándar):

0.0

0.053

simetría (error estándar):

0.008

0.079

dimensión fractal (error estándar):

0,001

0.03

radio (peor):

7.93

36.04

textura (peor):

12.02

49.54

perímetro (peor):

50.41

251.2

área (peor):

185.2

4254.0

suavidad (peor):

0.071

0.223

compactidad (peor):

0.027

1.058

concavidad (peor):

0.0

1.252

puntos cóncavos (peor):

0.0

0.291

simetría (peor):

0.156

0.664

dimensión fractal (peor):

0.055

0.208

Valores de atributos que faltan

Ninguno

Distribución según clase

212 - Malignant, 357 - Benign

Creador

Dr. William H. Wolberg, W. Nick Street, Olvi L. Mangasarian

Donante

Calle Nick

Fecha

Noviembre de 1995

Esta es una copia de los conjuntos de datos UCI ML Breast Cancer Wisconsin (Diagnóstico). https://goo.gl/U2Uwz2

Las características se calculan a partir de una imagen digitalizada de un aspirado con aguja fina (FNA) de una masa mamaria. Describen las características de los núcleos celulares presentes en la imagen.

El plano de separación descrito anteriormente se ha obtenido mediante el método Multisurface-Tree (MSM-T) [K. P. Bennett, «Decision Tree Construction Via Linear Programming». Proceedings of the 4th Midwest Artificial Intelligence and Cognitive Science Society, pp. 97-101, 1992], un método de clasificación que utiliza la programación lineal para construir un árbol de decisión. Las características relevantes se seleccionaron mediante una búsqueda exhaustiva en el espacio de 1-4 características y 1-3 planos de separación.

El programa lineal real utilizado para obtener el plano de separación en el espacio tridimensional es el descrito en: [K. P. Bennett y O. L. Mangasarian: «Robust Linear Programming Discrimination of Two Linearly Inseparable Sets», Optimization Methods and Software 1, 1992, 23-34].

Esta base de datos también está disponible a través del servidor UW CS ftp:

ftp ftp.cs.wisc.edu cd math-prog/cpo-dataset/machine-learn/WDBC/

Referencias

  • W.N. Street, W.H. Wolberg and O.L. Mangasarian. Nuclear feature extraction for breast tumor diagnosis. IS&T/SPIE 1993 International Symposium on Electronic Imaging: Science and Technology, volume 1905, pages 861-870, San Jose, CA, 1993.

  • O.L. Mangasarian, W.N. Street and W.H. Wolberg. Breast cancer diagnosis and prognosis via linear programming. Operations Research, 43(4), pages 570-577, July-August 1995.

  • W.H. Wolberg, W.N. Street, and O.L. Mangasarian. Machine learning techniques to diagnose breast cancer from fine-needle aspirates. Cancer Letters 77 (1994) 163-171.