sklearn.datasets
.fetch_openml¶
- sklearn.datasets.fetch_openml()¶
Obtiene el conjunto de datos de openml por nombre o por el Id del conjunto de datos.
Los conjuntos de datos se identifican de forma exclusiva por un ID entero o por una combinación de nombre y versión (es decir, puede haber varias versiones del conjunto de datos «iris»). Indica el nombre o el identificador de datos (no ambos). Si se indica un nombre, también puede indicarse una versión.
Lee más en la Manual de usuario.
Nuevo en la versión 0.20.
Nota
EXPERIMENTAL
La API es experimental (en particular la estructura de valores de salida), y podría tener pequeños cambios incompatibles con versiones anteriores sin previo aviso o advertencia en futuras versiones.
- Parámetros
- namestr, default=None
Identificador de cadena del conjunto de datos. Ten en cuenta que OpenML puede tener varios conjuntos de datos con el mismo nombre.
- versiónint o “active”, default=”active”
Versión del conjunto de datos. Sólo puede proporcionarse si también se da
name
. Si está «active», se utiliza la versión más antigua que aún esté activa. Dado que puede haber más de una versión activa de un conjunto de datos, y esas versiones pueden ser fundamentalmente diferentes entre sí, es muy recomendable establecer una versión exacta.- data_idint, default=None
ID OpenML del conjunto de datos. Es la forma más específica de recuperar un conjunto de datos. Si no se da data_id, se utiliza el nombre (y la posible versión) para obtener un conjunto de datos.
- data_homestr, default=None
Especifique otra carpeta de descarga y caché para los conjuntos de datos. Por defecto, todos los datos de scikit-learn se almacenan en las subcarpetas “~/scikit_learn_data”.
- target_columnstr, list o None, default=”default-target”
Especifica el nombre de la columna de los datos que se utilizará como objetivo. Si se indica como
default-target
, se utiliza la columna de destino estándar almacenada en el servidor. Si se establece comoNone
, se devuelven todas las columnas como datos y el objetivo esNone
. Si es una lista (de cadenas), todas las columnas con estos nombres se devuelven como multi objetivo (Nota: no todos los clasificadores de scikit-learn pueden manejar todos los tipos de combinaciones de salida múltiple)- cachebool, default=True
Permite almacenar en caché los conjuntos de datos descargados utilizando joblib.
- return_X_ybool, default=False
Si es True, devuelve
(data, target)
en lugar de un objeto Bunch. Ver más abajo para más información sobre los objetosdata
ytarget
.- as_framebool o “auto”, default=”auto”
Si es True, los datos son un DataFrame de pandas que incluye columnas con los dtypes apropiados (numérico, cadena o categórico). El objetivo es un DataFrame de pandas o Series dependiendo del número del target_columns. El Bunch contendrá un atributo
frame
con el objetivo y los datos. Sireturn_X_y
es True, entonces(data, target)
serán DataFrames o Series de pandas como se ha descrito anteriormente.Si as_frame es
auto
, los datos y el objetivo se convertirán en DataFrame o Series como si as_frame fuera True, a menos que el conjunto de datos se almacene en formato disperso.Distinto en la versión 0.24: El valor predeterminado de
as_frame
cambió deFalse
a'auto'
en 0.24.
- Devuelve
- data
Bunch
Objeto tipo diccionario, con los siguientes atributos.
- datosnp.array, scipy.sparse.csr_matrix de flotantes, o pandas DataFrame
La matriz de características. Las características categóricas se codifican como ordinales.
- objetivonp.array, Series o DataFrame de pandas
El objetivo de la regresión o las etiquetas de clasificación, si es aplicable. Dtype es float si es numérico, y objeto si es categórico. Si
as_frame
es True,target
es un objeto pandas.- DESCRstr
La descripción completa del conjunto de datos
- feature_nameslista
Los nombres de las columnas del conjunto de datos
- target_names: list
Los nombres de las columnas de destino
Nuevo en la versión 0.22.
- categoríasdict or None
Asigna cada nombre de característica categórica a una lista de valores, de manera que el valor codificado como i es el ith en la lista. Si
as_frame
es True, es None.- detallesdict
Más metadatos de OpenML
- framepandas DataFrame
Sólo presente cuando
as_frame=True
. DataFrame condata
andtarget
.
- (data, target) : tuple if
return_X_y
es Truetupla si Nota
EXPERIMENTAL
Esta interfaz es experimental y las versiones posteriores pueden cambiar los atributos sin previo aviso (aunque sólo debería haber cambios menores en
data
ytarget
).Los valores perdidos en
data
se representan como NaN’s. Los valores que faltan en ``target”” se representan como NaN’s (objetivo numérico) o None (objetivo categórico)
- data