6.5. Reducción de dimensionalidad no supervisada¶
Si tu número de características es alto, puede ser útil reducirlo con un paso no supervisado antes de los pasos supervisados. Muchos de los métodos de Aprendizaje no supervisado implementan un método transform
que puede ser usado para reducir la dimensionalidad. A continuación, discutimos dos ejemplos específicos de este patrón que son muy utilizados.
Pipelining
La reducción de datos no supervisada y el estimador supervisado pueden ser encadenados en un paso. Ver Pipeline: estimadores encadenados.
6.5.1. Análisis de Componentes Principales (Principal Component Analysis, PCA)¶
decomposition.PCA
busca una combinación de características que capturen bien la varianza de las características originales. Ver Descomposición de señales en componentes (problemas de factorización de matrices).
6.5.2. Proyecciones aleatorias¶
El módulo: random_projection
proporciona varias herramientas para la reducción de datos por proyecciones aleatorias. Véase la sección correspondiente de la documentación: Proyección aleatoria.
6.5.3. Aglomeración de características¶
cluster.FeatureAgglomeration
aplica Análisis de conglomerados jerárquicos para agrupar características que se comportan de forma similar.
Escalamiento de características
Ten en cuenta que si las características tienen propiedades estadísticas o de escala muy diferentes, cluster.FeatureAgglomeration
puede no ser capaz de capturar los vínculos entre las características relacionadas. El uso de preprocessing.StandardScaler
puede ser útil en estas configuraciones.