6.5. Reducción de dimensionalidad no supervisada

Si tu número de características es alto, puede ser útil reducirlo con un paso no supervisado antes de los pasos supervisados. Muchos de los métodos de Aprendizaje no supervisado implementan un método transform que puede ser usado para reducir la dimensionalidad. A continuación, discutimos dos ejemplos específicos de este patrón que son muy utilizados.

Pipelining

La reducción de datos no supervisada y el estimador supervisado pueden ser encadenados en un paso. Ver Pipeline: estimadores encadenados.

6.5.1. Análisis de Componentes Principales (Principal Component Analysis, PCA)

decomposition.PCA busca una combinación de características que capturen bien la varianza de las características originales. Ver Descomposición de señales en componentes (problemas de factorización de matrices).

6.5.2. Proyecciones aleatorias

El módulo: random_projection proporciona varias herramientas para la reducción de datos por proyecciones aleatorias. Véase la sección correspondiente de la documentación: Proyección aleatoria.

6.5.3. Aglomeración de características

cluster.FeatureAgglomeration aplica Análisis de conglomerados jerárquicos para agrupar características que se comportan de forma similar.

Escalamiento de características

Ten en cuenta que si las características tienen propiedades estadísticas o de escala muy diferentes, cluster.FeatureAgglomeration puede no ser capaz de capturar los vínculos entre las características relacionadas. El uso de preprocessing.StandardScaler puede ser útil en estas configuraciones.