sklearn.preprocessing
.Binarizer¶
- class sklearn.preprocessing.Binarizer¶
Binariza datos (establece los valores de las características en 0 o 1) según un umbral.
Los valores mayores al umbral se mapean a 1, mientras que los valores menores o iguales al umbral se mapean a 0. Con el umbral por defecto de 0, sólo los valores positivos se mapean a 1.
La binarización es una operación común en los datos de recuento de texto en la que el analista puede decidir considerar sólo la presencia o ausencia de una característica en lugar de un número cuantificado de ocurrencias por instancia.
También puede utilizarse como etapa de preprocesamiento para los estimadores que consideran variables aleatorias booleanas (por ejemplo, modeladas mediante la distribución Bernoulli en un entorno bayesiano).
Leer más en el Manual de Usuario.
- Parámetros
- thresholdfloat, default=0.0
Los valores de características inferiores o iguales a éste se sustituyen por 0, y los superiores por 1. El umbral no puede ser menor que 0 para las operaciones con matrices dispersas.
- copybool, default=True
se establece en False para realizar la binarización in place y evitar una copia (si la entrada ya es un arreglo numpy o una matriz scipy.sparse CSR).
Ver también
binarize
Función equivalente sin la API del estimador.
Notas
Si la entrada es una matriz dispersa, sólo los valores distintos de cero están sujetos a actualización por la clase Binarizer.
Este estimador es stateless (además de los parámetros del constructor), el método fit no hace nada, pero es útil cuando se usa en un pipeline.
Ejemplos
>>> from sklearn.preprocessing import Binarizer >>> X = [[ 1., -1., 2.], ... [ 2., 0., 0.], ... [ 0., 1., -1.]] >>> transformer = Binarizer().fit(X) # fit does nothing. >>> transformer Binarizer() >>> transformer.transform(X) array([[1., 0., 1.], [1., 0., 0.], [0., 1., 0.]])
Métodos
No hace nada y devuelve el estimador sin cambios.
Ajusta a los datos y luego los transforma.
Obtiene los parámetros para este estimador.
Establece los parámetros de este estimador.
Binariza cada elemento de X.
- fit()¶
No hace nada y devuelve el estimador sin cambios.
Este método sólo está ahí para implementar la API habitual y, por lo tanto, funcionar en pipelines.
- Parámetros
- X{array-like, sparse matrix} de forma (n_samples, n_features)
Los datos.
- yNone
Ignorado.
- Devuelve
- selfobject
Transformador ajustado.
- fit_transform()¶
Ajusta a los datos y luego los transforma.
Ajusta el transformador a
X
yy
con parámetros opcionalesfit_params
y devuelve una versión transformada deX
.- Parámetros
- Xarray-like de forma (n_samples, n_features)
Muestras de entrada.
- yarray-like de forma (n_samples,) o (n_samples, n_outputs), default=None
Valores objetivo (None para transformaciones no supervisadas).
- **fit_paramsdict
Parámetros de ajuste adicionales.
- Devuelve
- X_newarreglo ndarray de forma (n_samples, n_features_new)
Arreglo transformado.
- get_params()¶
Obtiene los parámetros para este estimador.
- Parámetros
- deepbool, default=True
Si es True, devolverá los parámetros para este estimador y los subobjetos contenidos que son estimadores.
- Devuelve
- paramsdict
Nombres de parámetros mapeados a sus valores.
- set_params()¶
Establece los parámetros de este estimador.
El método funciona tanto en estimadores simples como en objetos anidados (como
Pipeline
). Estos últimos tienen parámetros de la forma<component>__<parameter>
para que sea posible actualizar cada componente de un objeto anidado.- Parámetros
- **paramsdict
Parámetros del estimador.
- Devuelve
- selfinstancia del estimador
Instancia del estimador.
- transform()¶
Binariza cada elemento de X.
- Parámetros
- X{array-like, sparse matrix} de forma (n_samples, n_features)
Los datos a binarizar, elemento por elemento. Las matrices scipy.sparse deben estar en formato CSR para evitar una copia innecesaria.
- copybool
Copia la entrada X o no.
- Devuelve
- X_tr{ndarray, sparse matrix} de forma (n_samples, n_features)
Arreglo transformado.