6. Transformaciones de conjuntos de datos¶
scikit-learn proporciona una biblioteca de transformadores, que pueden limpiar (ver Preprocesamiento de los datos), reducir (ver Reducción de dimensionalidad no supervisada), expandir (ver Aproximación de núcleo) o generar (ver Extracción de características) representaciones de características.
Al igual que otros estimadores, están representados por clases con un método fit
, que aprende los parámetros del modelo (por ejemplo, la media y la desviación estándar para la normalización) a partir de un conjunto de entrenamiento, y un método transform
que aplica este modelo de transformación a los datos no vistos. El método fit_transform
puede ser más conveniente y eficiente para modelar y transformar los datos de entrenamiento simultáneamente.
La combinación de dichos transformadores, ya sea en paralelo o en serie, se cubre en Pipelines y estimadores compuestos. Métricas por pares, afinidades y núcleos cubre la transformación de espacios de características en matrices de afinidad, mientras que Transformación del objetivo de predicción (y) considera las transformaciones del espacio objetivo (por ejemplo, etiquetas categóricas) para su uso en scikit-learn.
- 6.1. Pipelines y estimadores compuestos
- 6.2. Extracción de características
- 6.3. Preprocesamiento de los datos
- 6.3.1. Estandarización, o eliminación media y escala de varianza
- 6.3.2. Transformación no lineal
- 6.3.3. Normalización
- 6.3.4. Codificación de características categóricas
- 6.3.5. Discretización
- 6.3.6. Imputación de valores faltantes
- 6.3.7. Generación de características polinomiales
- 6.3.8. Transformadores personalizados
- 6.4. Imputación de valores faltantes
- 6.5. Reducción de dimensionalidad no supervisada
- 6.6. Proyección aleatoria
- 6.7. Aproximación de núcleo
- 6.8. Métricas por pares, afinidades y núcleos
- 6.9. Transformación del objetivo de predicción (
y
)