`sklearn.preprocessing`.Binarizer¶

class sklearn.preprocessing.Binarizer¶

Binariza datos (establece los valores de las características en 0 o 1) según un umbral.

Los valores mayores al umbral se mapean a 1, mientras que los valores menores o iguales al umbral se mapean a 0. Con el umbral por defecto de 0, sólo los valores positivos se mapean a 1.

La binarización es una operación común en los datos de recuento de texto en la que el analista puede decidir considerar sólo la presencia o ausencia de una característica en lugar de un número cuantificado de ocurrencias por instancia.

También puede utilizarse como etapa de preprocesamiento para los estimadores que consideran variables aleatorias booleanas (por ejemplo, modeladas mediante la distribución Bernoulli en un entorno bayesiano).

Leer más en el Manual de Usuario.

Parámetros

thresholdfloat, default=0.0: Los valores de características inferiores o iguales a éste se sustituyen por 0, y los superiores por 1. El umbral no puede ser menor que 0 para las operaciones con matrices dispersas.
copybool, default=True: se establece en False para realizar la binarización in place y evitar una copia (si la entrada ya es un arreglo numpy o una matriz scipy.sparse CSR).

Ver también

binarize: Función equivalente sin la API del estimador.

Notas

Si la entrada es una matriz dispersa, sólo los valores distintos de cero están sujetos a actualización por la clase Binarizer.

Este estimador es stateless (además de los parámetros del constructor), el método fit no hace nada, pero es útil cuando se usa en un pipeline.

Ejemplos

>>> from sklearn.preprocessing import Binarizer
>>> X = [[ 1., -1.,  2.],
...      [ 2.,  0.,  0.],
...      [ 0.,  1., -1.]]
>>> transformer = Binarizer().fit(X)  # fit does nothing.
>>> transformer
Binarizer()
>>> transformer.transform(X)
array([[1., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.]])

Métodos

`fit`	No hace nada y devuelve el estimador sin cambios.
`fit_transform`	Ajusta a los datos y luego los transforma.
`get_params`	Obtiene los parámetros para este estimador.
`set_params`	Establece los parámetros de este estimador.
`transform`	Binariza cada elemento de X.

fit()¶

No hace nada y devuelve el estimador sin cambios.

Este método sólo está ahí para implementar la API habitual y, por lo tanto, funcionar en pipelines.

Parámetros

X{array-like, sparse matrix} de forma (n_samples, n_features): Los datos.
yNone: Ignorado.

Devuelve

selfobject: Transformador ajustado.

fit_transform()¶

Ajusta a los datos y luego los transforma.

Ajusta el transformador a X y y con parámetros opcionales fit_params y devuelve una versión transformada de X.

Parámetros

Xarray-like de forma (n_samples, n_features): Muestras de entrada.
yarray-like de forma (n_samples,) o (n_samples, n_outputs), default=None: Valores objetivo (None para transformaciones no supervisadas).
**fit_paramsdict: Parámetros de ajuste adicionales.

Devuelve

X_newarreglo ndarray de forma (n_samples, n_features_new): Arreglo transformado.

get_params()¶

Obtiene los parámetros para este estimador.

Parámetros

deepbool, default=True: Si es True, devolverá los parámetros para este estimador y los subobjetos contenidos que son estimadores.

Devuelve

paramsdict: Nombres de parámetros mapeados a sus valores.

set_params()¶

Establece los parámetros de este estimador.

El método funciona tanto en estimadores simples como en objetos anidados (como Pipeline). Estos últimos tienen parámetros de la forma <component>__<parameter> para que sea posible actualizar cada componente de un objeto anidado.

Parámetros

**paramsdict: Parámetros del estimador.

Devuelve

selfinstancia del estimador: Instancia del estimador.

transform()¶

Binariza cada elemento de X.

Parámetros

X{array-like, sparse matrix} de forma (n_samples, n_features): Los datos a binarizar, elemento por elemento. Las matrices scipy.sparse deben estar en formato CSR para evitar una copia innecesaria.
copybool: Copia la entrada X o no.

Devuelve

X_tr{ndarray, sparse matrix} de forma (n_samples, n_features): Arreglo transformado.