sklearn.datasets.dump_svmlight_file

sklearn.datasets.dump_svmlight_file()

Volcar el conjunto de datos en formato de archivo svmlight / libsvm.

Este formato está basado en texto, con una muestra por línea. No almacena características de valor cero, por lo que es adecuado para conjuntos de datos dispersos.

El primer elemento de cada línea puede utilizarse para almacenar una variable objetivo para predecir.

Parámetros
X{array-like, sparse matrix} de forma (n_samples, n_features)

Vectores de entrenamiento, donde n_samples es el número de muestras y n_features es el número de características.

y{array-like, sparse matrix}, shape = [n_samples (, n_labels)]

Valores de destino. Las etiquetas de las clases deben ser un entero o un flotante, o bien objetos array-like de enteros o flotantes para las clasificaciones multietiqueta.

fstring o file-like en modo binario

Si es una cadena, especifica la ruta que contendrá los datos. Si es tipo archivo, los datos se escribirán en f. f debe abrirse en modo binario.

zero_basedboolean, default=True

Si los índices de las columnas deben ser escritos en base a cero (True) o en base a uno (False).

comentariocadena de caracteres, default=None

Comenta para insertar en la parte superior del archivo. Debe ser una cadena Unicode, que se codificará como UTF-8, o una cadena de bytes ASCII. Si se da un comentario, será precedido por uno que identifique que el archivo ha sido volcado por scikit-learn. Ten en cuenta que no todas las herramientas entienden los comentarios en los archivos SVMlight.

query_idarray-like de forma (n_samples,), default=None

Arreglo que contiene las restricciones de preferencia por pares (qid en formato svmlight).

multilabelboolean, default=False

Las muestras pueden tener varias etiquetas cada una (ver https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html)

Nuevo en la versión 0.17: parámetro multilabel para soportar conjuntos de datos multietiqueta.

Ejemplos con sklearn.datasets.dump_svmlight_file