sklearn.datasets.load_svmlight_files

sklearn.datasets.load_svmlight_files()

Carga un conjunto de datos de varios archivos en formato SVMlight

Esta función es equivalente al mapeo de load_svmlight_file sobre una lista de archivos, salvo que los resultados se concatenan en una única lista plana y los vectores de muestras se limitan a tener todos el mismo número de características.

En caso de que el archivo contenga una restricción de preferencia por pares (conocida como «qid» en el formato svmlight), se ignora a menos que el parámetro query_id se establezca como True. Estas restricciones de preferencia por pares pueden utilizarse para restringir la combinación de muestras cuando se utilizan funciones de pérdida por pares (como es el caso de algunos problemas de aprendizaje para clasificar), de modo que sólo se consideren los pares con el mismo valor de query_id.

Parámetros
filesarray-like, dtype=str, file-like o int

(Rutas de) archivos a cargar. Si una ruta termina en «.gz» o «.bz2», se descomprimirá sobre la marcha. Si se pasa un entero, se asume que es un descriptor de archivo. Los file-likes y los descriptores de archivo no serán cerrados por esta función. Los objetos file-like deben abrirse en modo binario.

n_featuresint, default=None

El número de características a utilizar. Si es None, se inferirá a partir del índice máximo de columna que aparezca en cualquiera de los archivos.

Puede establecerse a un valor mayor que el número real de características en cualquiera de los archivos de entrada, pero si se establece a un valor menor se producirá una excepción.

dtypetipo de dato numpy, default=np.float64

Tipo de dato del conjunto de datos a cargar. Este será el tipo de dato de los arreglos numpy de salida X y y.

multilabelbool, default=False

Las muestras pueden tener varias etiquetas cada una (ver https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html)

zero_basedbool o «auto», default=»auto»

Si los índices de columna en f están basados en cero (True) o en uno (False). Si los índices de las columnas están basados en uno, se transforman en basados en cero para que coincidan con las convenciones de Python/NumPy. Si se establece como «auto», se aplica una comprobación heurística para determinar esto a partir del contenido del archivo. Ambos tipos de archivos ocurren «in the wild», pero desafortunadamente no son autoidentificables. El uso de «auto» o True debería ser siempre seguro cuando no se pasa offset o length. Si se pasa offset o length, el modo «auto» vuelve a zero_based=True para evitar que la comprobación heurística produzca resultados inconsistentes en diferentes segmentos del archivo.

query_idbool, default=False

Si es True, devolverá el arreglo query_id para cada archivo.

offsetint, default=0

Ignora los primeros bytes desplazados buscando hacia adelante, y descartando los siguientes bytes hasta el siguiente carácter de línea nueva.

lengthint, default=-1

Si es estrictamente positivo, deja de leer cualquier nueva línea de datos una vez que la posición en el archivo ha alcanzado el umbral de (desplazamiento + longitud) bytes.

Devuelve
[X1, y1, …, Xn, yn]
donde cada par (Xi, yi) es el resultado de load_svmlight_file(files[i]).
Si query_id se establece en True, esto devolverá en su lugar [X1, y1, q1, q1,
…, Xn, yn, qn] donde (Xi, yi, qi) es el resultado de
load_svmlight_file(files[i])

Ver también

load_svmlight_file

Notas

Cuando se ajusta un modelo a una matriz X_train y se evalúa contra una matriz X_test, es esencial que X_train y X_test tengan el mismo número de características (X_train.shape[1] == X_test.shape[1]). Este puede no ser el caso si cargas los archivos individualmente con load_svmlight_file.