SVM-Anova: SVM con selección de características univariantes¶
Este ejemplo muestra cómo realizar una selección de características univariantes antes de ejecutar un clasificador de vectores de soporte (SVC) para mejorar las puntuaciones de clasificación. Utilizamos el conjunto de datos del iris (4 características) y añadimos 36 características no informativas. Podemos comprobar que nuestro modelo alcanza el mejor rendimiento cuando seleccionamos alrededor del 10% de las características.

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectPercentile, chi2
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
# #############################################################################
# Import some data to play with
X, y = load_iris(return_X_y=True)
# Add non-informative features
X = np.hstack((X, 2 * np.random.random((X.shape[0], 36))))
# #############################################################################
# Create a feature-selection transform, a scaler and an instance of SVM that we
# combine together to have an full-blown estimator
clf = Pipeline([('anova', SelectPercentile(chi2)),
('scaler', StandardScaler()),
('svc', SVC(gamma="auto"))])
# #############################################################################
# Plot the cross-validation score as a function of percentile of features
score_means = list()
score_stds = list()
percentiles = (1, 3, 6, 10, 15, 20, 30, 40, 60, 80, 100)
for percentile in percentiles:
this_scores = cross_val_score(clf, X, y)
plt.errorbar(percentiles, score_means, np.array(score_stds))
'Performance of the SVM-Anova varying the percentile of features selected')
plt.xticks(np.linspace(0, 100, 11, endpoint=True))
plt.ylabel('Accuracy Score')
Tiempo total de ejecución del script: (0 minutos 0.330 segundos)