sklearn.preprocessing.Binarizer

class sklearn.preprocessing.Binarizer

Binariza datos (establece los valores de las características en 0 o 1) según un umbral.

Los valores mayores al umbral se mapean a 1, mientras que los valores menores o iguales al umbral se mapean a 0. Con el umbral por defecto de 0, sólo los valores positivos se mapean a 1.

La binarización es una operación común en los datos de recuento de texto en la que el analista puede decidir considerar sólo la presencia o ausencia de una característica en lugar de un número cuantificado de ocurrencias por instancia.

También puede utilizarse como etapa de preprocesamiento para los estimadores que consideran variables aleatorias booleanas (por ejemplo, modeladas mediante la distribución Bernoulli en un entorno bayesiano).

Leer más en el Manual de Usuario.

Parámetros
thresholdfloat, default=0.0

Los valores de características inferiores o iguales a éste se sustituyen por 0, y los superiores por 1. El umbral no puede ser menor que 0 para las operaciones con matrices dispersas.

copybool, default=True

se establece en False para realizar la binarización in place y evitar una copia (si la entrada ya es un arreglo numpy o una matriz scipy.sparse CSR).

Ver también

binarize

Función equivalente sin la API del estimador.

Notas

Si la entrada es una matriz dispersa, sólo los valores distintos de cero están sujetos a actualización por la clase Binarizer.

Este estimador es stateless (además de los parámetros del constructor), el método fit no hace nada, pero es útil cuando se usa en un pipeline.

Ejemplos

>>> from sklearn.preprocessing import Binarizer
>>> X = [[ 1., -1.,  2.],
...      [ 2.,  0.,  0.],
...      [ 0.,  1., -1.]]
>>> transformer = Binarizer().fit(X)  # fit does nothing.
>>> transformer
Binarizer()
>>> transformer.transform(X)
array([[1., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.]])

Métodos

fit

No hace nada y devuelve el estimador sin cambios.

fit_transform

Ajusta a los datos y luego los transforma.

get_params

Obtiene los parámetros para este estimador.

set_params

Establece los parámetros de este estimador.

transform

Binariza cada elemento de X.

fit()

No hace nada y devuelve el estimador sin cambios.

Este método sólo está ahí para implementar la API habitual y, por lo tanto, funcionar en pipelines.

Parámetros
X{array-like, sparse matrix} de forma (n_samples, n_features)

Los datos.

yNone

Ignorado.

Devuelve
selfobject

Transformador ajustado.

fit_transform()

Ajusta a los datos y luego los transforma.

Ajusta el transformador a X y y con parámetros opcionales fit_params y devuelve una versión transformada de X.

Parámetros
Xarray-like de forma (n_samples, n_features)

Muestras de entrada.

yarray-like de forma (n_samples,) o (n_samples, n_outputs), default=None

Valores objetivo (None para transformaciones no supervisadas).

**fit_paramsdict

Parámetros de ajuste adicionales.

Devuelve
X_newarreglo ndarray de forma (n_samples, n_features_new)

Arreglo transformado.

get_params()

Obtiene los parámetros para este estimador.

Parámetros
deepbool, default=True

Si es True, devolverá los parámetros para este estimador y los subobjetos contenidos que son estimadores.

Devuelve
paramsdict

Nombres de parámetros mapeados a sus valores.

set_params()

Establece los parámetros de este estimador.

El método funciona tanto en estimadores simples como en objetos anidados (como Pipeline). Estos últimos tienen parámetros de la forma <component>__<parameter> para que sea posible actualizar cada componente de un objeto anidado.

Parámetros
**paramsdict

Parámetros del estimador.

Devuelve
selfinstancia del estimador

Instancia del estimador.

transform()

Binariza cada elemento de X.

Parámetros
X{array-like, sparse matrix} de forma (n_samples, n_features)

Los datos a binarizar, elemento por elemento. Las matrices scipy.sparse deben estar en formato CSR para evitar una copia innecesaria.

copybool

Copia la entrada X o no.

Devuelve
X_tr{ndarray, sparse matrix} de forma (n_samples, n_features)

Arreglo transformado.