sklearn.datasets.fetch_kddcup99

sklearn.datasets.fetch_kddcup99()

Cargar el conjunto de datos de kddcup99 (clasificación).

Descargar si es necesario.

Clases

23

Total de muestras

4898431

Dimensionalidad

41

Características

discreto (int) o continuo (float)

Lee más en el Manual de usuario.

Nuevo en la versión 0.18.

Parámetros
subset{“SA”, “SF”, “http”, “smtp”}, default=None

Devolver los subconjuntos clásicos correspondientes de kddcup 99. Si es None, devuelve todo el conjunto de datos de kddcup 99.

data_homestr, default=None

Especifica otra carpeta de descarga y caché para los conjuntos de datos. Por defecto todos los datos de scikit-learn se almacenan en las subcarpetas “~/scikit_learn_data”. .. versionadded:: 0.19

shufflebool, default=False

Si se baraja el conjunto de datos.

random_stateentero, instancia de RandomState o None, default=None

Determina la generación de números aleatorios para barajar el conjunto de datos y para la selección de muestras anormales si subset='SA'. Pase un int para una salida reproducible a través de múltiples llamadas a la función. Ver Glosario.

percent10bool, default=True

Si se carga sólo el 10 por ciento de los datos.

download_if_missingbool, default=True

Si es False, lanza un IOError si los datos no están disponibles localmente en lugar de intentar descargar los datos desde el sitio de origen.

return_X_ybool, default=False

Si es True, devuelve (data, target) en lugar de un objeto Bunch. Para más información sobre los objetos data y target, véase más abajo.

Nuevo en la versión 0.20.

as_framebool, default=False

Si True, devuelve un pandas Dataframe para los objetos data y target en el objeto devuelto Bunch; el objeto devuelto Bunch también tendrá un miembro frame.

Nuevo en la versión 0.24.

Devuelve
dataBunch

Objeto tipo diccionario, con los siguientes atributos.

datos{ndarray, dataframe} de forma (494021, 41)

La matriz de datos a aprender. Si as_frame=True, data será un DataFrame de pandas.

objetivo{ndarray, series} de forma (494021,)

El objetivo de regresión para cada muestra. Si as_frame=True, target será una Serie pandas.

marcodataframe de forma (494021, 42)

Sólo está presente cuando as_frame=True. Contiene data y target.

DESCRstr

La descripción completa del conjunto de datos.

feature_nameslista

Los nombres de las columnas del conjunto de datos

target_names: lista

Los nombres de las columnas de destino

(data, target) : tuple if ``return_X_y``es Truetupla si

Nuevo en la versión 0.20.