sklearn.model_selection.LeavePOut

class sklearn.model_selection.LeavePOut

Validador cruzado Leave-P-Out

Proporciona índices de entrenamiento/prueba para dividir los datos en conjuntos de entrenamiento/prueba. Esto da lugar a la realización de pruebas en todas las muestras distintas de tamaño p, mientras que las restantes n - p muestras forman el conjunto de entrenamiento en cada iteración.

Nota: LeavePOut(p) NO es equivalente a KFold(n_splits=n_samples // p) que crea conjuntos de prueba no superpuestos.

Debido al elevado número de iteraciones que crece combinatoriamente con el número de muestras, este método de validación cruzada puede ser muy costoso. Para conjuntos de datos grandes se debería favorecer KFold, StratifiedKFold o ShuffleSplit.

Más información en el Manual de usuario.

Parámetros
pint

Tamaño de los conjuntos de pruebas. Debe ser estrictamente inferior al número de muestras.

Ejemplos

>>> import numpy as np
>>> from sklearn.model_selection import LeavePOut
>>> X = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
>>> y = np.array([1, 2, 3, 4])
>>> lpo = LeavePOut(2)
>>> lpo.get_n_splits(X)
6
>>> print(lpo)
LeavePOut(p=2)
>>> for train_index, test_index in lpo.split(X):
...     print("TRAIN:", train_index, "TEST:", test_index)
...     X_train, X_test = X[train_index], X[test_index]
...     y_train, y_test = y[train_index], y[test_index]
TRAIN: [2 3] TEST: [0 1]
TRAIN: [1 3] TEST: [0 2]
TRAIN: [1 2] TEST: [0 3]
TRAIN: [0 3] TEST: [1 2]
TRAIN: [0 2] TEST: [1 3]
TRAIN: [0 1] TEST: [2 3]

Métodos

get_n_splits

Devuelve el número de iteraciones divididas en el validador cruzado

split

Genera índices para dividir los datos en conjunto de entrenamiento y de prueba.

get_n_splits()

Devuelve el número de iteraciones divididas en el validador cruzado

Parámetros
Xarray-like de forma (n_samples, n_features)

Datos de entrenamiento, donde n_samples es el número de muestras y n_features es el número de características.

yobjeto

Siempre ignorado, existe por compatibilidad.

groupsobjeto

Siempre ignorado, existe por compatibilidad.

split()

Genera índices para dividir los datos en conjunto de entrenamiento y de prueba.

Parámetros
Xarray-like de forma (n_samples, n_features)

Datos de entrenamiento, donde n_samples es el número de muestras y n_features es el número de características.

yarray-like de forma (n_samples,)

La variable objetivo para los problemas de aprendizaje supervisado.

groupsarray-like de forma (n_samples,), default=None

Agrupa las etiquetas de las muestras utilizadas al separar el conjunto de datos en conjunto de entrenamiento/prueba.

Produce
trainndarray

El entrenamiento establece los índices para esa división.

testndarray

Los índices del conjunto de pruebas para esa división.