sklearn.datasets.fetch_openml

sklearn.datasets.fetch_openml()

Obtiene el conjunto de datos de openml por nombre o por el Id del conjunto de datos.

Los conjuntos de datos se identifican de forma exclusiva por un ID entero o por una combinación de nombre y versión (es decir, puede haber varias versiones del conjunto de datos «iris»). Indica el nombre o el identificador de datos (no ambos). Si se indica un nombre, también puede indicarse una versión.

Lee más en la Manual de usuario.

Nuevo en la versión 0.20.

Nota

EXPERIMENTAL

La API es experimental (en particular la estructura de valores de salida), y podría tener pequeños cambios incompatibles con versiones anteriores sin previo aviso o advertencia en futuras versiones.

Parámetros
namestr, default=None

Identificador de cadena del conjunto de datos. Ten en cuenta que OpenML puede tener varios conjuntos de datos con el mismo nombre.

versiónint o “active”, default=”active”

Versión del conjunto de datos. Sólo puede proporcionarse si también se da name. Si está «active», se utiliza la versión más antigua que aún esté activa. Dado que puede haber más de una versión activa de un conjunto de datos, y esas versiones pueden ser fundamentalmente diferentes entre sí, es muy recomendable establecer una versión exacta.

data_idint, default=None

ID OpenML del conjunto de datos. Es la forma más específica de recuperar un conjunto de datos. Si no se da data_id, se utiliza el nombre (y la posible versión) para obtener un conjunto de datos.

data_homestr, default=None

Especifique otra carpeta de descarga y caché para los conjuntos de datos. Por defecto, todos los datos de scikit-learn se almacenan en las subcarpetas “~/scikit_learn_data”.

target_columnstr, list o None, default=”default-target”

Especifica el nombre de la columna de los datos que se utilizará como objetivo. Si se indica como default-target, se utiliza la columna de destino estándar almacenada en el servidor. Si se establece como None, se devuelven todas las columnas como datos y el objetivo es None. Si es una lista (de cadenas), todas las columnas con estos nombres se devuelven como multi objetivo (Nota: no todos los clasificadores de scikit-learn pueden manejar todos los tipos de combinaciones de salida múltiple)

cachebool, default=True

Permite almacenar en caché los conjuntos de datos descargados utilizando joblib.

return_X_ybool, default=False

Si es True, devuelve (data, target) en lugar de un objeto Bunch. Ver más abajo para más información sobre los objetos data y target.

as_framebool o “auto”, default=”auto”

Si es True, los datos son un DataFrame de pandas que incluye columnas con los dtypes apropiados (numérico, cadena o categórico). El objetivo es un DataFrame de pandas o Series dependiendo del número del target_columns. El Bunch contendrá un atributo frame con el objetivo y los datos. Si return_X_y es True, entonces (data, target) serán DataFrames o Series de pandas como se ha descrito anteriormente.

Si as_frame es auto, los datos y el objetivo se convertirán en DataFrame o Series como si as_frame fuera True, a menos que el conjunto de datos se almacene en formato disperso.

Distinto en la versión 0.24: El valor predeterminado de as_frame cambió de False a 'auto' en 0.24.

Devuelve
dataBunch

Objeto tipo diccionario, con los siguientes atributos.

datosnp.array, scipy.sparse.csr_matrix de flotantes, o pandas DataFrame

La matriz de características. Las características categóricas se codifican como ordinales.

objetivonp.array, Series o DataFrame de pandas

El objetivo de la regresión o las etiquetas de clasificación, si es aplicable. Dtype es float si es numérico, y objeto si es categórico. Si as_frame es True, target es un objeto pandas.

DESCRstr

La descripción completa del conjunto de datos

feature_nameslista

Los nombres de las columnas del conjunto de datos

target_names: list

Los nombres de las columnas de destino

Nuevo en la versión 0.22.

categoríasdict or None

Asigna cada nombre de característica categórica a una lista de valores, de manera que el valor codificado como i es el ith en la lista. Si as_frame es True, es None.

detallesdict

Más metadatos de OpenML

framepandas DataFrame

Sólo presente cuando as_frame=True. DataFrame con data and target.

(data, target) : tuple if return_X_y es Truetupla si

Nota

EXPERIMENTAL

Esta interfaz es experimental y las versiones posteriores pueden cambiar los atributos sin previo aviso (aunque sólo debería haber cambios menores en data y target).

Los valores perdidos en data se representan como NaN’s. Los valores que faltan en ``target”” se representan como NaN’s (objetivo numérico) o None (objetivo categórico)

Ejemplos con sklearn.datasets.fetch_openml