sklearn.utils
.check_X_y¶
- sklearn.utils.check_X_y()¶
Validación de entrada para estimadores estándar.
Comprueba X e y si hay una longitud consistente, obliga a X a ser 2D e y 1D. De forma predeterminada, X está marcado como no vacío y contiene sólo valores finitos. Los controles de entrada estándar también se aplican a y, como comprobar que y no tiene objetivos np.nan o np.inf. Para la etiqueta múltiple y, establece multi_output=True para permitir 2D y Sparse y. Si el tipo de X es un objeto, intente convertir a flotante, generando un fallo.
- Parámetros
- X{ndarray, list, sparse matrix}
Datos de entrada.
- y{ndarray, list, sparse matrix}
Etiquetas.
- accept_sparsestr, bool o lista de str, default=False
Cadena[s] que representa los formatos de matriz dispersa permitidos, como “csc”, “csr”, etc. Si la entrada es dispersa pero no está en el formato permitido, se convertirá al primer formato de la lista. True permite que la entrada sea cualquier formato. False significa que una entrada de matriz dispersa dará lugar a un error.
- accept_large_sparsebool, default=True
Si se suministra una matriz dispersa CSR, CSC, COO o BSR y se acepta mediante accept_sparse, accept_large_sparse=False hará que se acepte sólo si sus índices se almacenan con un dtype de 32 bits.
Nuevo en la versión 0.20.
- dtype“numeric”, tipo, lista de tipos o None, default=”numeric”
Tipo de datos del resultado. Si es None, se conserva el dtype de la entrada. Si es «numeric», se preserva el tipo de datos a menos que array.dtype sea un objeto. Si dtype es una lista de tipos, la conversión en el primer tipo sólo se realiza si el dtype de la entrada no está en la lista.
- order{“F”, “C”}, default=None
Si un arreglo será forzado a ser de estilo fortran o c.
- copybool, default=False
Si se activará una copia forzada. Si copy=False, una copia podría ser desencadenada por una conversión.
- force_all_finitebool o “allow-nan”, default=True
Si se produce un error sobre np.inf, np.nan, pd.NA en X. Este parámetro no influye en si y puede tener valores np.inf, np.nan, pd.NA. Las posibilidades son:
True: Fuerza que todos los valores X sean finitos.
False: acepta en X np.inf, np.nan, pd.NA.
“allow-nan”: sólo acepta en X valores np.nan y pd.NA. Los valores no pueden ser infinitos.
Nuevo en la versión 0.20:
force_all_finite
acepta la cadena'allow-nan'
.Distinto en la versión 0.23: Acepta
pd.NA
y lo convierte ennp.nan
- ensure_2dbool, default=True
Si se produce un error de valor si X no es 2D.
- allow_ndbool, default=False
Permitir o no X.ndim > 2.
- multi_outputbool, default=False
Si permitir y 2D (arreglo o matriz dispersa). Si es falso, y será validado como un vector. y no puede tener valores np.nan o np.inf si multi_output=True.
- ensure_min_samplesint, default=1
Asegúrate de que X tiene un número mínimo de muestras en su primer eje (filas para un arreglo 2D).
- ensure_min_featuresint, default=1
Asegúrate de que el arreglo 2D tiene un número mínimo de características (columnas). El valor por defecto de 1 rechaza los conjuntos de datos vacíos. Esta comprobación sólo se aplica cuando los datos de entrada tienen efectivamente 2 dimensiones o son originalmente 1D y
ensure_2d
es True. El valor 0 desactiva esta comprobación.- y_numericbool, default=False
Si asegurarse de que y tiene un tipo numérico. Si dtype de y es un objeto, se convierte a float64. Sólo debe utilizarse para algoritmos de regresión.
- estimatorstr o instancia del estimador, default=None
Si se pasa, incluye el nombre del estimador en los mensajes de advertencia.
- Devuelve
- X_convertedobjeto
El X convertido y validado.
- y_convertedobjeto
El y convertido y validado.