6. Transformaciones de conjuntos de datos

scikit-learn proporciona una biblioteca de transformadores, que pueden limpiar (ver Preprocesamiento de los datos), reducir (ver Reducción de dimensionalidad no supervisada), expandir (ver Aproximación de núcleo) o generar (ver Extracción de características) representaciones de características.

Al igual que otros estimadores, están representados por clases con un método fit, que aprende los parámetros del modelo (por ejemplo, la media y la desviación estándar para la normalización) a partir de un conjunto de entrenamiento, y un método transform que aplica este modelo de transformación a los datos no vistos. El método fit_transform puede ser más conveniente y eficiente para modelar y transformar los datos de entrenamiento simultáneamente.

La combinación de dichos transformadores, ya sea en paralelo o en serie, se cubre en Pipelines y estimadores compuestos. Métricas por pares, afinidades y núcleos cubre la transformación de espacios de características en matrices de afinidad, mientras que Transformación del objetivo de predicción (y) considera las transformaciones del espacio objetivo (por ejemplo, etiquetas categóricas) para su uso en scikit-learn.