7.1. Conjuntos de datos de juguetes¶
scikit-learn viene con unos pequeños conjuntos de datos estándar que no requieren descargar ningún archivo de algún sitio web externo.
Se pueden cargar mediante las siguientes funciones:
|
Carga y devuelve el conjunto de datos de precios de viviendas de Boston (regresión). |
|
Carga y devuelve el conjunto de datos de iris (clasificación). |
|
Carga y devuelve el conjunto de datos de la diabetes (regresión). |
|
Carga y devuelve el conjunto de datos de dígitos (clasificación). |
|
Carga y devuelve el conjunto de datos linnerud de ejercicio físico. |
|
Carga y devuelve el conjunto de datos de vino (clasificación). |
|
Carga y devuelve el conjunto de datos de cáncer de mama de Wisconsin (clasificación). |
Estos conjuntos de datos son útiles para ilustrar rápidamente el comportamiento de los diversos algoritmos implementados en scikit-learn. Sin embargo, suelen ser demasiado pequeños para ser representativos de las tareas de aprendizaje automático del mundo real.
7.1.1. Conjunto de datos sobre los precios de la vivienda en Boston¶
Características del conjunto de datos:
- Número de instancias
506
- Número de atributos
13 predictivo numérico/categórico. El valor de la mediana (atributo 14) suele ser el objetivo.
- Información del atributo (en orden)
CRIM tasa de criminalidad per cápita por ciudad
ZN proporción de suelo residencial zonificado para lotes de más de 25.000 pies cuadrados.
INDUS proporción de acres comerciales no minoristas por ciudad
CHAS Variable dummy de Charles River (= 1 si el tramo limita con el río; 0 en caso contrario)
NOX concentración de óxidos nítricos (partes por 10 millones)
RM número promedio de habitaciones por vivienda
AGE proporción de unidades ocupadas por sus propietarios construidas antes de 1940
DIS distancias ponderadas a cinco centros de empleo de Boston
RAD índice de accesibilidad a las autopistas radiales
TAX tasa de impuesto sobre la propiedad de valor total por 10.000 dólares
PTRATIO ratio alumno-profesor por ciudad
B 1000(Bk - 0,63)^2 donde Bk es la proporción de negros por ciudad
LSTAT % estatus inferior de la población
MEDV Mediana del valor de las viviendas ocupadas por sus propietarios en miles de dólares
- Valores de atributos que faltan
Ninguno
- Creador
Harrison, D. y Rubinfeld, D.L.
Esta es una copia del conjunto de datos de UCI ML. https://archive.ics.uci.edu/ml/machine-learning-databasases/housing/
Este conjunto de datos se ha tomado de la biblioteca StatLib que se mantiene en la Universidad Carnegie Mellon.
The Boston house-price data of Harrison, D. y Rubinfeld, D.L. “Hedonic prices and the demand for clean air”, J. Environ. Economics & Management, vol.5, 81-102, 1978. Utilizado en Belsley, Kuh & Welsch, “Regression diagnostics …”, Wiley, 1980. , en la tabla de páginas 244-261 de estas últimas se utilizan transformaciones variadas.
Los datos de precios de la vivienda en Boston se han utilizado en muchos documentos de aprendizaje automático que abordan problemas de regresión.
Referencias
Belsley, Kuh & Welsch, “Regression diagnostics: Identifying Influential Data and Sources of Collinearity”, Wiley, 1980. 244-261.
Quinlan,R. (1993). Combining Instance-Based and Model-Based Learning. In Proceedings on the Tenth International Conference of Machine Learning, 236-243, University of Massachusetts, Amherst. Morgan Kaufmann.
7.1.2. Conjunto de datos de plantas de lirio¶
Características del conjunto de datos:
- Número de instancias
150 (50 en cada una de tres clases)
- Número de atributos
4 atributos numéricos, predictivos y la clase
- Información de atributo
longitud de los sépalos en cm
ancho de los sépalos en cm
longitud de los pétalos en cm
ancho de los pétalos en cm
- clase:
Iris-Setosa
Iris-Versicolour
Iris-Virginica
- Resumen estadístico
longitud del sepal:
4.3
7.9
5.84
0.83
0.7826
ancho de los sépalos:
2.0
4.4
3.05
0.43
-0.4194
longitud de los pétalos:
1.0
6.9
3.76
1.76
0.9490 (¡máximo!)
ancho de los pétalos:
0.1
2.5
1.20
0.76
0.9565 (¡máximo!)
- Valores de atributos que faltan
Ninguno
- Distribución según clase
33,3% para cada una de 3 clases.
- Creador
R.A. Fisher
- Donante
Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
- Fecha
Julio de 1988
La famosa base de datos Iris, utilizada por primera vez por Sir R.A. Fisher. El conjunto de datos está tomado del artículo de Fisher. Obsérvese que es el mismo que en R, pero no el del Repositorio de Aprendizaje Automático de la UCI, que tiene dos puntos de datos erróneos.
Esta es quizás la base de datos más conocida que se encuentra en la literatura de reconocimiento de patrones. El artículo de Fisher es un clásico en este campo y se cita con frecuencia hasta el día de hoy. (Ver Duda y Hart, por ejemplo.) El conjunto de datos contiene 3 clases de 50 casos cada una, donde cada clase se refiere a un tipo de planta de iris. Una de las clases es linealmente separable de las otras 2; las últimas NO son linealmente separables entre sí.
Referencias
Fisher, R.A. «The use of multiple measurements in taxonomic problems» Annual Eugenics, 7, Part II, 179-188 (1936); también en «Contributions to Mathematical Statistics» (John Wiley, NY, 1950).
Duda, R.O., & Hart, P.E. (1973) Pattern Classification and Scene Analysis. (Q327.D83) John Wiley & Sons. ISBN 0-471-22361-1. Ver página 218.
Dasarathy, B.V. (1980) «Nosing Around the Neighborhood: A New System Structure and Classification Rule for Recognition in Partially Exposed Environments». IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. PAMI-2, No. 1, 67-71.
Gates, G.W. (1972) «The Reduced Nearest Neighbor Rule». IEEE Transactions on Information Theory, May 1972, 431-433.
Ver también: 1988 MLC Proceedings, 54-64. Cheeseman et al»s AUTOCLASS II conceptual clustering system finds 3 classes in the data.
Muchos, muchos más…
7.1.3. Conjunto de datos sobre la diabetes¶
Se obtuvieron diez variables basales, edad, sexo, índice de masa corporal, presión arterial media y seis mediciones de suero sanguíneo para cada uno de los n = 442 pacientes con diabetes, así como la respuesta de interés, una medida cuantitativa de la progresión de la enfermedad un año después de la línea de base.
Características del conjunto de datos:
- Número de instancias
442
- Número de atributos
Las primeras 10 columnas son valores predictivos numéricos
- Objetivo
La columna 11 es una medida cuantitativa del avance de la enfermedad un año después de la línea base
- Información de atributo
edad edad en años
sexo
IMC Índice de masa corporal
pb presión arterial media
s1 tc, células T (un tipo de glóbulos blancos)
s2 ldl, lipoproteínas de baja densidad
s3 hdl, lipoproteínas de alta densidad
s4 tch, hormona estimulante del tiroides
s5 ltg, lamotrigina
s6 glu, nivel de azúcar en sangre
Nota: Cada una de estas 10 variables de características se ha centrado en la media y se ha escalado por la desviación estándar multiplicada por n_samples
(es decir, la suma de los cuadrados de cada columna suma 1).
URL de fuente: https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html
Para más información ver: Bradley Efron, Trevor Hastie, Iain Johnstone y Robert Tibshirani (2004) «Regresión del menor ángulo», Annals of StStatiss (con discusión), 407-499. (https://web.stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf)
7.1.4. Conjunto de datos de reconocimiento óptico de dígitos manuscritos¶
Características del conjunto de datos:
- Número de instancias
1797
- Número de atributos
64
- Información de atributo
Imagen 8x8 de píxeles enteros en el rango 0..16.
- Valores de atributos que faltan
Ninguno
- Creador
Alpaydin (alpaydin “@” boun.edu.tr)
- Fecha
Julio de 1998
Esta es una copia del conjunto de pruebas de los dígitos escritos a manos de UCI ML https://archive.ics.uci.edu/ml/datasets/Optical+Reconocimiento+of+Handwritten+Digitos
El conjunto de datos contiene imágenes de dígitos escritos a mano: 10 clases donde cada clase se refiere a un dígito.
Se utilizaron programas de preprocesamiento puestos a disposición por el NIST para extraer mapas de bits normalizados de dígitos manuscritos de un formulario preimpreso. De un total de 43 personas, 30 contribuyeron al conjunto de entrenamiento y otras 13 al conjunto de prueba. Los mapas de bits de 32x32 se dividen en bloques no superpuestos de 4x4 y se cuenta el número de píxeles en cada bloque. Esto genera una matriz de entrada de 8x8 en la que cada elemento es un número entero en el rango 0..16. Esto reduce la dimensionalidad y da invariabilidad a pequeñas distorsiones.
For info on NIST preprocessing routines, see M. D. Garris, J. L. Blue, G. T. Candela, D. L. Dimmick, J. Geist, P. J. Grother, S. A. Janet, and C. L. Wilson, NIST Form-Based Handprint Recognition System, NISTIR 5469, 1994.
Referencias
C. Kaynak (1995) Methods of Combining Multiple Classifiers and Their Applications to Handwritten Digit Recognition, MSc Thesis, Institute of Graduate Studies in Science and Engineering, Bogazici University.
Alpaydin, C. Kaynak (1998) Cascading Classifiers, Kybernetika.
Ken Tang and Ponnuthurai N. Suganthan and Xi Yao and A. Kai Qin. Linear dimensionalityreduction using relevance weighted LDA. School of Electrical and Electronic Engineering Nanyang Technological University. 2005.
Claudio Gentile. A New Approximate Maximal Margin Classification Algorithm. NIPS. 2000.
7.1.5. Conjunto de datos de Linnerrud¶
Características del conjunto de datos:
- Número de instancias
20
- Número de atributos
3
- Valores de atributos que faltan
Ninguno
El conjunto de datos de Linnerud es un conjunto de datos de regresión de salida múltiple. Consta de tres variables de ejercicio (datos) y tres fisiológicas (objetivo) recogidas de veinte hombres de mediana edad en un club de fitness:
- fisiológico - CSV que contiene 20 observaciones sobre 3 variables fisiológicas:
Peso, cintura y pulso.
- ejercicio - CSV que contiene 20 observaciones sobre 3 variables de ejercicio:
Flexiones, sentadillas y saltos.
Referencias
Tenenhaus, M. (1998). La regression PLS: theorie et pratique. Paris: Editions Technic.
7.1.6. Conjunto de datos de reconocimiento de vinos¶
Características del conjunto de datos:
- Número de instancias
178 (50 en cada una de tres clases)
- Número de atributos
13 atributos numéricos, predictivos y la clase
- Información de atributo
Alcohol
Ácido málico
Ceniza
Alcalinidad de la ceniza
Magnesio
Fenoles totales
Flavanoides
Fenoles no flavonoides
Proantocianinas
Intensidad de Color
Tonalidad
OD280/OD315 de vinos diluidos
Prolina
- clase:
clase_0
clase_1
class_2
- Resumen estadístico
Alcohol:
11.0
14.8
13
0,8
Ácido málico:
0.74
5.80
2.34
1.12
Ceniza:
1.36
3.23
2.36
0.27
Alcalinidad de la ceniza:
10.6
30.0
19.5
3.3
Magnesio:
70.0
162.0
99.7
14.3
Fenoles totales:
0.98
3.88
2.29
0.63
Flavanoides:
0.34
5.08
2.03
1.00
Fenoles no flavonoides:
0.13
0.66
0.36
0.12
Proantocianinas:
0.41
3.58
1.59
0.57
Intensidad de color:
1.3
13
5.1
2.3
Tonalidad:
0.48
1.71
0.96
0.23
OD280/OD315 de los vinos diluidos:
1.27
4.00
2.61
0.71
Prolina:
278
1680
746
315
- Valores de atributos que faltan
Ninguno
- Distribución según clase
clase_0 (59), class_1 (71), class_2 (48)
- Creador
R.A. Fisher
- Donante
Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
- Fecha
Julio de 1988
Esta es una copia de los conjuntos de datos de reconocimiento de Vinos de UCI ML. https://archive.ics.uci.edu/ml/machine-learning-databasases/wine/wine.data
Los datos son los resultados de un análisis químico de vinos cultivados en la misma región de Italia por tres cultivadores diferentes. Se han realizado trece mediciones diferentes de los distintos componentes presentes en los tres tipos de vino.
Propietarios originales:
Forina, M. et al, PARVUS - An Extendible Package for Data Exploration, Classification and Correlation. Institute of Pharmaceutical and Food Analysis and Technologies, Via Brigata Salerno, 16147 Genoa, Italy.
Cita:
Lichman, M. (2013). UCI Machine Learning Repository [https://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.
Referencias
(1) S. Aeberhard, D. Coomans and O. de Vel, Comparison of Classifiers in High Dimensional Settings, Tech. Rep. no. 92-02, (1992), Dept. of Computer Science and Dept. of Mathematics and Statistics, James Cook University of North Queensland. (Also submitted to Technometrics).
Los datos se utilizaron junto con otros muchos para comparar varios clasificadores. Las clases son separables, aunque sólo RDA ha logrado una clasificación correcta del 100%. (RDA : 100%, QDA 99,4%, LDA 98,9%, 1NN 96,1% (datos transformados en z)) (Todos los resultados utilizan la técnica de leave-one-out)
(2) S. Aeberhard, D. Coomans and O. de Vel, «THE CLASSIFICATION PERFORMANCE OF RDA» Tech. Rep. no. 92-01, (1992), Dept. of Computer Science and Dept. of Mathematics and Statistics, James Cook University of North Queensland. (Also submitted to Journal of Chemometrics).
7.1.7. Conjunto de datos sobre el cáncer de mama en Wisconsin (diagnóstico)¶
Características del conjunto de datos:
- Número de instancias
569
- Número de atributos
30 atributos numéricos, predictivos y la clase
- Información de atributo
radio (media de las distancias del centro a los puntos del perímetro)
textura (desviación estándar de los valores de la escala de grises)
perímetro
área
suavidad (variación local de las longitudes de los radios)
compacidad (perímetro^2 / área - 1,0)
concavidad (gravedad de las partes cóncavas del contorno)
puntos cóncavos (número de porciones cóncavas del contorno)
simetría
dimensión fractal («aproximación de la línea costera» - 1)
Para cada imagen se calcularon la media, el error estándar y el «peor» o más grande (media de los tres peores / mayores valores) de estas características, lo que dio lugar a 30 características. Por ejemplo, el campo 0 es el radio medio, el campo 10 es el radio SE y el campo 20 es el peor radio.
- clase:
WDBC-Malignant
WDBC-Benign
- Resumen estadístico
radio (medio):
6.981
28.11
textura (media):
9.71
39.28
perímetro (media):
43.79
188.5
área (media):
143.5
2501.0
suavidad (media):
0.053
0.163
compactidad (media):
0.019
0.345
concavidad (media):
0.0
0.427
puntos cóncavos (media):
0.0
0.201
simetría (media):
0.106
0.304
dimensión fractal (media):
0.05
0.097
radio (error estándar):
0.112
2.873
textura (error estándar):
0.36
4.885
perímetro (error estándar):
0.757
21.98
área (error estándar):
6.802
542.2
suavidad (error estándar):
0.002
0.031
compacidad (error estándar):
0.002
0.135
concavidad (error estándar):
0.0
0.396
puntos cóncavos (error estándar):
0.0
0.053
simetría (error estándar):
0.008
0.079
dimensión fractal (error estándar):
0,001
0.03
radio (peor):
7.93
36.04
textura (peor):
12.02
49.54
perímetro (peor):
50.41
251.2
área (peor):
185.2
4254.0
suavidad (peor):
0.071
0.223
compactidad (peor):
0.027
1.058
concavidad (peor):
0.0
1.252
puntos cóncavos (peor):
0.0
0.291
simetría (peor):
0.156
0.664
dimensión fractal (peor):
0.055
0.208
- Valores de atributos que faltan
Ninguno
- Distribución según clase
212 - Malignant, 357 - Benign
- Creador
Dr. William H. Wolberg, W. Nick Street, Olvi L. Mangasarian
- Donante
Calle Nick
- Fecha
Noviembre de 1995
Esta es una copia de los conjuntos de datos UCI ML Breast Cancer Wisconsin (Diagnóstico). https://goo.gl/U2Uwz2
Las características se calculan a partir de una imagen digitalizada de un aspirado con aguja fina (FNA) de una masa mamaria. Describen las características de los núcleos celulares presentes en la imagen.
El plano de separación descrito anteriormente se ha obtenido mediante el método Multisurface-Tree (MSM-T) [K. P. Bennett, «Decision Tree Construction Via Linear Programming». Proceedings of the 4th Midwest Artificial Intelligence and Cognitive Science Society, pp. 97-101, 1992], un método de clasificación que utiliza la programación lineal para construir un árbol de decisión. Las características relevantes se seleccionaron mediante una búsqueda exhaustiva en el espacio de 1-4 características y 1-3 planos de separación.
El programa lineal real utilizado para obtener el plano de separación en el espacio tridimensional es el descrito en: [K. P. Bennett y O. L. Mangasarian: «Robust Linear Programming Discrimination of Two Linearly Inseparable Sets», Optimization Methods and Software 1, 1992, 23-34].
Esta base de datos también está disponible a través del servidor UW CS ftp:
ftp ftp.cs.wisc.edu cd math-prog/cpo-dataset/machine-learn/WDBC/
Referencias
W.N. Street, W.H. Wolberg and O.L. Mangasarian. Nuclear feature extraction for breast tumor diagnosis. IS&T/SPIE 1993 International Symposium on Electronic Imaging: Science and Technology, volume 1905, pages 861-870, San Jose, CA, 1993.
O.L. Mangasarian, W.N. Street and W.H. Wolberg. Breast cancer diagnosis and prognosis via linear programming. Operations Research, 43(4), pages 570-577, July-August 1995.
W.H. Wolberg, W.N. Street, and O.L. Mangasarian. Machine learning techniques to diagnose breast cancer from fine-needle aspirates. Cancer Letters 77 (1994) 163-171.