sklearn.datasets.fetch_lfw_pairs

sklearn.datasets.fetch_lfw_pairs()

Cargar el conjunto de datos de pares Labeled Faces in the Wild (LFW) (clasificación).

Descargar si es necesario.

Clases

2

Total de muestras

13233

Dimensionalidad

5828

Características

real, entre 0 y 255

En el archivo oficial README.txt esta tarea se describe como tarea «restringida». Como no estoy seguro de implementar correctamente la variante «Unrestricted», la he dejado como no soportada por ahora.

Las imágenes originales son de 250 x 250 píxeles, pero los argumentos de corte y redimensionamiento predeterminado las reducen a 62 x 47.

Lee más en el Manual de usuario.

Parámetros
subset{“train”, “test”, “10_folds”}, default=”train”

Seleccione el conjunto de datos a cargar: “train” para el conjunto de entrenamiento de desarrollo, “test” para el conjunto de prueba de desarrollo, y “10_folds” para el conjunto de evaluación oficial que está destinado a ser utilizado con una validación cruzada de 10 veces.

data_homestr, default=None

Especifique otra carpeta de descarga y caché para los conjuntos de datos. Por defecto todos los datos de scikit-learn se almacenan en las subcarpetas “~/scikit_learn_data”.

funneledbool, default=True

Descargue y utilice la variante con embudo del conjunto de datos.

resizefloat, default=0.5

Relación utilizada para redimensionar la imagen de cada cara.

colorbool, default=False

Mantener los 3 canales RGB en lugar de promediarlos en un solo canal de nivel de gris. Si color es True la forma de los datos tiene una dimensión más que la forma con color = False.

slice_tupla de corte, default=(corte(70, 195), corte(78, 172))

Proporciona un corte 2D personalizado (altura, anchura) para extraer la parte «interesante» de los archivos jpeg y evitar el uso de la correlación estadística del fondo

download_if_missingbool, default=True

Si es False, lanza un IOError si los datos no están disponibles localmente en lugar de intentar descargar los datos del sitio de origen.

Devuelve
dataBunch

Objeto tipo diccionario, con los siguientes atributos.

data : ndarray de forma (2200, 5828). La forma depende de subset.ndarray de forma (2200, 5828). La forma depende de

Cada fila corresponde a 2 imágenes faciales de tamaño original 62 x 47 píxeles. Si se cambian los parámetros slice_, resize o subset se cambiará la forma de la salida.

pairs : ndarray de forma (2200, 2, 62, 47). La forma depende de subsetndarray de forma (2200, 2, 62, 47). La forma depende de

Cada fila tiene 2 imágenes de caras que corresponden a la misma o diferente persona del conjunto de datos que contiene 5749 personas. Si se cambian los parámetros slice_, resize o subset se cambiará la forma de la salida.

target : matriz numpy de shape (2200,). La forma depende de subset.arreglo numpy de forma (2200,). La forma depende de

Etiquetas asociadas a cada par de imágenes. Los dos valores de las etiquetas son personas diferentes o la misma persona.

DESCRcadena

Descripción del conjunto de datos Labeled Faces in the Wild (LFW).