1.8. Descomposición cruzada¶
El módulo de descomposición cruzada contiene estimadores supervisados para la reducción de la dimensionalidad y la regresión, pertenecientes a la familia de los «mínimos cuadrados parciales».

Los algoritmos de descomposición cruzada encuentran las relaciones fundamentales entre dos matrices (X e Y). Son enfoques de variables latentes para modelar las estructuras de covarianza en estos dos espacios. Tratan de encontrar la dirección multidimensional en el espacio X que explica la máxima dirección de varianza multidimensional en el espacio Y. En otras palabras, PLS proyecta tanto X
como Y
en un subespacio de menor dimensión tal que la covarianza entre transformada(X)
y transformada(Y)
es máxima.
El PLS guarda similitudes con la «Regresión de Componentes Principales» (PCR), en la que las muestras se proyectan primero en un subespacio de menor dimensión y los objetivos y
se predicen utilizando transformed(X)
. Uno de los problemas de la PCR es que la reducción de la dimensionalidad no está supervisada y puede ignorar algunas variables importantes: La PCR mantendría las características con la mayor varianza, pero es posible que las características con una pequeña varianza sean relevantes para predecir el resultado. En cierto modo, PLS permite el mismo tipo de reducción de la dimensionalidad, pero teniendo en cuenta los objetivos y
. El siguiente ejemplo ilustra este hecho: * Regresión por componentes principales frente a la regresión por mínimos cuadrados parciales.
Aparte de CCA, los estimadores PLS son especialmente adecuados cuando la matriz de predictores tiene más variables que observaciones, y cuando hay multicolinealidad entre las características. Por el contrario, la regresión lineal estándar fracasaría en estos casos a menos que sea regularizada.
Las clases incluidas en este módulo son PLSRegression
, PLSCanonical
, CCA
and PLSVD
1.8.1. PLSCanonical¶
Aquí describimos el algoritmo usado en PLSCanonical
. Los otros estimadores usan variantes de este algoritmo, y se detallan a continuación. Recomendamos la sección 1 para más detalles y comparaciones entre estos algoritmos. En 1, PLSCanonical
corresponde a «PLSW2A».
Dadas dos matrices centradas PLSCanonical
prosigue como se indica a continuación:
Defina
a) compute
and , the first left and right singular vectors of the cross-covariance matrix . and are called the weights. By definition, and are choosen so that they maximize the covariance between the projected and the projected target, that is .b) Project
and on the singular vectors to obtain scores: andc) Regress
on , i.e. find a vector such that the rank-1 matrix is as close as possible to . Do the same on with to obtain . The vectors and are called the loadings.d) deflate
and , i.e. subtract the rank-1 approximations: , and .
Al final, hemos aproximado
Observa que las matrices de puntuación
El paso a) puede realizarse de dos maneras: calculando toda la SVD de 'nipals
del parámetro algorithm
.
1.8.1.1. Transformación de datos¶
Para transformar x_rotations_
.
Del mismo modo, y_rotations_
.
1.8.1.2. Predicción de los objetivos Y¶
Para predecir los objetivos de algunos datos
La idea es tratar de predecir los objetivos transformados
Luego, tenemos
coef_
.
1.8.2. PLSSVD¶
PLSSVD
es una versión simplificada de PLSCanonical
descrita anteriormente: en lugar de disminuir iterativamente las matrices PLSSVD
calcula la SVD de :math: C = X^TY
sólo una vez, y almacena los vectores singulares n_componentes
correspondientes a los mayores valores singulares en las matrices U
y V
, correspondientes a los atributos x_weights_
y y_weights_
. Aquí, los datos transformados son simplemente transformed(X) = XU
y transformed(Y) = YV
.
Si n_components == 1
, PLSVD
y PLSCanonical
son estrictamente equivalentes.
1.8.3. PLSRegression¶
El estimador PLSRegression
es similar a PLSCanonical
con algorithm='nipals'
, con 2 diferencias importantes:
en el paso a) del método de potencia para calcular
y , nunca se normaliza.en el paso c), los objetivos
se aproximan utilizando la proyección de (es decir, ) en lugar de la proyección de (es decir, ). En otras palabras, el cálculo de las cargas es diferente. Como resultado, la disminución en el paso d) también se verá afectada.
Estas dos modificaciones afectan a la salida de predict
y transform
, que no son las mismas que para PLSCanonical
. Además, mientras que el número de componentes está limitado por min(n_samples, n_features, n_targets)
en PLSCanonical
, aquí el límite es el rango de min(n_samples, n_features)
.
PLSRegression
también se conoce como PLS1 (objetivos simples) y PLS2 (objetivos múltiples). Al igual que Lasso
, PLSRegression
es una forma de regresión lineal regularizada donde el número de componentes controla la fuerza de la regularización.
1.8.4. Análisis de Correlación Canónica¶
El Análisis de Correlación Canónica se desarrolló previa e independientemente de PLS. Pero resulta que CCA
es un caso especial de PLS, y corresponde a PLS en el «Modo B» en la literatura.
CCA
difiere de PLSCanonical
en la forma en que los pesos
Como CCA
involucra la inversión de
Reference: