sklearn.datasets
.make_multilabel_classification¶
- sklearn.datasets.make_multilabel_classification()¶
Genera un problema de clasificación multietiqueta aleatoria.
- Para cada muestra, el proceso generativo es:
elegir el número de etiquetas: n ~ Poisson(n_labels)
n veces, elegir una clase c: c ~ Multinomial(theta)
elegir la longitud del documento: k ~ Poisson(length)
k veces, elegir una palabra: w ~ Multinomial(theta_c)
En el proceso anterior, el muestreo de rechazo se utiliza para asegurarse de que n nunca sea cero o más que
n_classes
, y que la longitud del documento nunca sea cero. Asimismo, rechazamos las clases que ya han sido elegidas.Leer más en el Manual de Usuario.
- Parámetros
- n_samplesint, default=100
El número de muestras.
- n_featuresint, default=20
El número total de características.
- n_classesint, default=5
El número de clases del problema de clasificación.
- n_labelsint, default=2
El número promedio de etiquetas por instancia. Más precisamente, el número de etiquetas por muestra se extrae de una distribución de Poisson con
n_labels
como su valor esperado, pero las muestras están acotadas (mediante muestreo de rechazo) porn_classes
, y deben ser distintas de cero siallow_unlabeled
es False.- lengthint, default=50
La suma de las características (número de palabras si son documentos) se extrae de una distribución de Poisson con este valor esperado.
- allow_unlabeledbool, default=True
Si es
True
, algunas instancias podrían no pertenecer a ninguna clase.- sparsebool, default=False
Si es
True
, devuelve una matriz de características dispersaNuevo en la versión 0.17: parámetro para permitir salida dispersa.
- return_indicator{“dense”, “sparse”} o False, default=”dense”
Si es
'dense'
devuelveY
en el formato de indicador binario denso. Si es'sparse'
devuelveY
en el formato de indicador binario disperso.False
devuelve una lista de listas de etiquetas.- return_distributionsbool, default=False
Si es
True
, devuelve la probabilidad de clase a priori y las probabilidades condicionales de las características de las clases dadas, de las que se extrajeron los datos.- random_stateentero, instancia de RandomState o None, default=None
Determina la generación de números aleatorios para la creación de conjuntos de datos. Pasa un int para una salida reproducible a través de múltiples llamadas a la función. Ver Glosario.
- Devuelve
- Xndarray de forma (n_samples, n_features)
Las muestras generadas.
- Y{ndarray, sparse matrix} de forma (n_samples, n_classes)
Los conjuntos de etiquetas. La matriz dispersa debe tener el formato CSR.
- p_cndarray de forma (n_classes,)
La probabilidad de que se extraiga cada clase. Sólo se devuelve si
return_distributions=True
.- p_w_cndarray de forma (n_features, n_classes)
La probabilidad de que cada característica sea extraída dada cada clase. Sólo se devuelve si
return_distributions=True
.