sklearn.datasets.make_multilabel_classification

sklearn.datasets.make_multilabel_classification()

Genera un problema de clasificación multietiqueta aleatoria.

Para cada muestra, el proceso generativo es:
  • elegir el número de etiquetas: n ~ Poisson(n_labels)

  • n veces, elegir una clase c: c ~ Multinomial(theta)

  • elegir la longitud del documento: k ~ Poisson(length)

  • k veces, elegir una palabra: w ~ Multinomial(theta_c)

En el proceso anterior, el muestreo de rechazo se utiliza para asegurarse de que n nunca sea cero o más que n_classes, y que la longitud del documento nunca sea cero. Asimismo, rechazamos las clases que ya han sido elegidas.

Leer más en el Manual de Usuario.

Parámetros
n_samplesint, default=100

El número de muestras.

n_featuresint, default=20

El número total de características.

n_classesint, default=5

El número de clases del problema de clasificación.

n_labelsint, default=2

El número promedio de etiquetas por instancia. Más precisamente, el número de etiquetas por muestra se extrae de una distribución de Poisson con n_labels como su valor esperado, pero las muestras están acotadas (mediante muestreo de rechazo) por n_classes, y deben ser distintas de cero si allow_unlabeled es False.

lengthint, default=50

La suma de las características (número de palabras si son documentos) se extrae de una distribución de Poisson con este valor esperado.

allow_unlabeledbool, default=True

Si es True, algunas instancias podrían no pertenecer a ninguna clase.

sparsebool, default=False

Si es True, devuelve una matriz de características dispersa

Nuevo en la versión 0.17: parámetro para permitir salida dispersa.

return_indicator{“dense”, “sparse”} o False, default=”dense”

Si es 'dense' devuelve Y en el formato de indicador binario denso. Si es 'sparse' devuelve Y en el formato de indicador binario disperso. False devuelve una lista de listas de etiquetas.

return_distributionsbool, default=False

Si es True, devuelve la probabilidad de clase a priori y las probabilidades condicionales de las características de las clases dadas, de las que se extrajeron los datos.

random_stateentero, instancia de RandomState o None, default=None

Determina la generación de números aleatorios para la creación de conjuntos de datos. Pasa un int para una salida reproducible a través de múltiples llamadas a la función. Ver Glosario.

Devuelve
Xndarray de forma (n_samples, n_features)

Las muestras generadas.

Y{ndarray, sparse matrix} de forma (n_samples, n_classes)

Los conjuntos de etiquetas. La matriz dispersa debe tener el formato CSR.

p_cndarray de forma (n_classes,)

La probabilidad de que se extraiga cada clase. Sólo se devuelve si return_distributions=True.

p_w_cndarray de forma (n_features, n_classes)

La probabilidad de que cada característica sea extraída dada cada clase. Sólo se devuelve si return_distributions=True.