sklearn.utils.check_X_y

sklearn.utils.check_X_y()

Validación de entrada para estimadores estándar.

Comprueba X e y si hay una longitud consistente, obliga a X a ser 2D e y 1D. De forma predeterminada, X está marcado como no vacío y contiene sólo valores finitos. Los controles de entrada estándar también se aplican a y, como comprobar que y no tiene objetivos np.nan o np.inf. Para la etiqueta múltiple y, establece multi_output=True para permitir 2D y Sparse y. Si el tipo de X es un objeto, intente convertir a flotante, generando un fallo.

Parámetros
X{ndarray, list, sparse matrix}

Datos de entrada.

y{ndarray, list, sparse matrix}

Etiquetas.

accept_sparsestr, bool o lista de str, default=False

Cadena[s] que representa los formatos de matriz dispersa permitidos, como “csc”, “csr”, etc. Si la entrada es dispersa pero no está en el formato permitido, se convertirá al primer formato de la lista. True permite que la entrada sea cualquier formato. False significa que una entrada de matriz dispersa dará lugar a un error.

accept_large_sparsebool, default=True

Si se suministra una matriz dispersa CSR, CSC, COO o BSR y se acepta mediante accept_sparse, accept_large_sparse=False hará que se acepte sólo si sus índices se almacenan con un dtype de 32 bits.

Nuevo en la versión 0.20.

dtype“numeric”, tipo, lista de tipos o None, default=”numeric”

Tipo de datos del resultado. Si es None, se conserva el dtype de la entrada. Si es «numeric», se preserva el tipo de datos a menos que array.dtype sea un objeto. Si dtype es una lista de tipos, la conversión en el primer tipo sólo se realiza si el dtype de la entrada no está en la lista.

order{“F”, “C”}, default=None

Si un arreglo será forzado a ser de estilo fortran o c.

copybool, default=False

Si se activará una copia forzada. Si copy=False, una copia podría ser desencadenada por una conversión.

force_all_finitebool o “allow-nan”, default=True

Si se produce un error sobre np.inf, np.nan, pd.NA en X. Este parámetro no influye en si y puede tener valores np.inf, np.nan, pd.NA. Las posibilidades son:

  • True: Fuerza que todos los valores X sean finitos.

  • False: acepta en X np.inf, np.nan, pd.NA.

  • “allow-nan”: sólo acepta en X valores np.nan y pd.NA. Los valores no pueden ser infinitos.

Nuevo en la versión 0.20: force_all_finite acepta la cadena 'allow-nan'.

Distinto en la versión 0.23: Acepta pd.NA y lo convierte en np.nan

ensure_2dbool, default=True

Si se produce un error de valor si X no es 2D.

allow_ndbool, default=False

Permitir o no X.ndim > 2.

multi_outputbool, default=False

Si permitir y 2D (arreglo o matriz dispersa). Si es falso, y será validado como un vector. y no puede tener valores np.nan o np.inf si multi_output=True.

ensure_min_samplesint, default=1

Asegúrate de que X tiene un número mínimo de muestras en su primer eje (filas para un arreglo 2D).

ensure_min_featuresint, default=1

Asegúrate de que el arreglo 2D tiene un número mínimo de características (columnas). El valor por defecto de 1 rechaza los conjuntos de datos vacíos. Esta comprobación sólo se aplica cuando los datos de entrada tienen efectivamente 2 dimensiones o son originalmente 1D y ensure_2d es True. El valor 0 desactiva esta comprobación.

y_numericbool, default=False

Si asegurarse de que y tiene un tipo numérico. Si dtype de y es un objeto, se convierte a float64. Sólo debe utilizarse para algoritmos de regresión.

estimatorstr o instancia del estimador, default=None

Si se pasa, incluye el nombre del estimador en los mensajes de advertencia.

Devuelve
X_convertedobjeto

El X convertido y validado.

y_convertedobjeto

El y convertido y validado.