¿Quién está utilizando scikit-learn?¶
J.P.Morgan¶
Scikit-learn es una parte indispensable del conjunto de herramientas de aprendizaje automático de Python en JPMorgan. Se utiliza ampliamente en todas las partes del banco para la clasificación, el análisis predictivo y muchas otras tareas de aprendizaje automático. Su sencilla API, su amplitud de algoritmos y la calidad de su documentación se combinan para hacer que scikit-learn sea muy accesible y muy potente al mismo tiempo.
Spotify¶
Scikit-learn proporciona una caja de herramientas con implementaciones sólidas de un montón de modelos de última generación y hace que sea fácil conectarlos a las aplicaciones existentes. La hemos utilizado bastante para las recomendaciones musicales en Spotify y creo que es el paquete de ML mejor diseñado que he visto hasta ahora.
Inria¶
En INRIA, utilizamos scikit-learn para apoyar la investigación básica de vanguardia en muchos equipos: Parietal para la neuroimagen, Lear para la visión por computadora, Visages para el análisis de imágenes médicas, Privatics para la seguridad. El proyecto es una herramienta fantástica para abordar las aplicaciones difíciles del aprendizaje automático en un entorno académico, ya que es eficaz y versátil, pero todo es fácil de usar y está bien documentado, lo que lo hace muy adecuado para los estudiantes de postgrado.
betaworks¶
Betaworks es un estudio de startups con sede en NYC que crea nuevos productos, hace crecer empresas e invierte en otros. En los últimos 8 años hemos lanzado un puñado de servicios basados en el análisis de datos sociales, como Bitly, Chartbeat, digg y Scale Model. El equipo de ciencia de datos de betaworks utiliza constantemente Scikit-learn para una gran variedad de tareas. Desde el análisis exploratorio hasta el desarrollo de productos, es una parte esencial de nuestro conjunto de herramientas. Los usos recientes se incluyen en el nuevo sistema de recomendación de vídeo de digg, y el análisis de conglomerados heurístico dinámico del subespacio de Poncho.
Hugging Face¶
En Hugging Face utilizamos Procesamiento del Lenguaje Natural (Natural Language Processing, NLP) y modelos probabilísticos para generar inteligencias artificiales conversacionales con las que sea divertido chatear. A pesar de utilizar redes neuronales profundas para algunas de nuestras tareas de NLP, scikit-learn sigue siendo el sustento cotidiano de nuestra rutina diaria de aprendizaje automático. La facilidad de uso y la previsibilidad de la interfaz, así como las explicaciones matemáticas sencillas que están aquí cuando las necesitas, es la característica esencial (killer). Utilizamos una variedad de modelos de scikit-learn en producción y también son operativamente muy agradables de trabajar.
Evernote¶
La construcción de un clasificador suele ser un proceso iterativo de exploración de los datos, selección de las características (los atributos de los datos que se cree que son predictivos de alguna manera), entrenamiento de los modelos y, finalmente, evaluación de los mismos. Para muchas de estas tareas, nos basamos en el excelente paquete scikit-learn para Python.
Télécom ParisTech¶
En Telecom ParisTech, scikit-learn se utiliza para las sesiones prácticas y las asignaciones para casa en los cursos introductorios y avanzados de aprendizaje automático. Las clases son para estudiantes universitarios y de maestría. La gran ventaja de scikit-learn es su rápida curva de aprendizaje que permite a los estudiantes empezar a trabajar rápidamente en problemas interesantes y motivadores.
Booking.com¶
En Booking.com, utilizamos algoritmos de aprendizaje automático para muchas aplicaciones diferentes, como recomendar hoteles y destinos a nuestros clientes, detectar reservas fraudulentas o programar a nuestros agentes de atención al cliente. Scikit-learn es una de las herramientas que utilizamos al implementar algoritmos estándar para tareas de predicción. Su API y su documentación son excelentes y facilitan su uso. Los desarrolladores de scikit-learn hacen un gran trabajo al incorporar implementaciones de vanguardia y nuevos algoritmos en el paquete. Así, scikit-learn proporciona un acceso conveniente a un amplio espectro de algoritmos, y nos permite encontrar fácilmente la herramienta adecuada para el trabajo correcto.
AWeber¶
El kit de herramientas scikit-learn es indispensable para el equipo de Análisis y Gestión de Datos de AWeber. Nos permite hacer cosas impresionantes (AWesome) que, de otro modo, no tendríamos tiempo ni recursos para lograr. La documentación es excelente y permite a los nuevos ingenieros evaluar y aplicar rápidamente muchos algoritmos diferentes a nuestros datos. Las utilidades de extracción de características de texto son útiles cuando se trabaja con el gran volumen de contenido de correo electrónico que tenemos en AWeber. La implementación de RandomizedPCA, junto con Pipelining y FeatureUnions, nos permite desarrollar complejos algoritmos de aprendizaje automático de forma eficiente y fiable.
Cualquiera que esté interesado en aprender más sobre cómo AWeber despliega scikit-learn en un entorno de producción debería consultar las charlas de PyData Boston por Michael Becker de AWeber disponibles en https://github.com/mdbecker/pydata_2013
Yhat¶
La combinación de APIs consistentes, documentación exhaustiva y una implementación de primera clase hacen de scikit-learn nuestro paquete de aprendizaje automático favorito en Python. scikit-learn hace accesible para cualquiera la realización de análisis avanzados en Python. En Yhat, hacemos que sea fácil integrar estos modelos en sus aplicaciones de producción. De esta manera, se elimina el tiempo de desarrollo innecesario que supone la producción del trabajo analítico.
Rangespan¶
El kit de herramientas scikit-learn de Python es una herramienta fundamental en el grupo de ciencia de datos de Rangespan. Su gran colección de modelos y algoritmos bien documentados permite a nuestro equipo de científicos de datos crear prototipos velozmente e iterar con rapidez para encontrar la solución adecuada a nuestros problemas de aprendizaje. Encontramos que scikit-learn no sólo es la herramienta adecuada para la creación de prototipos, sino que su implementación cuidadosa y bien probada nos da la confianza para ejecutar modelos de scikit-learn en producción.
Birchbox¶
En Birchbox, nos enfrentamos a una gama de problemas de aprendizaje automático típicos del comercio electrónico: recomendación de productos, análisis de conglomerados de usuarios, predicción de inventario, detección de tendencias, etc. Scikit-learn nos permite experimentar con muchos modelos, especialmente en la fase de exploración de un nuevo proyecto: los datos se pueden pasar de una manera consistente; los modelos son fáciles de guardar y reutilizar; las actualizaciones nos mantienen informados de los nuevos desarrollos de la comunidad de investigación de descubrimiento de patrones. Scikit-learn es una herramienta importante para nuestro equipo, construida de la manera correcta en el lenguaje adecuado.
Bestofmedia Group¶
Scikit-learn es nuestro kit de herramientas #1 para todo lo relacionado con el aprendizaje automático en Bestofmedia. Lo utilizamos para una gran variedad de tareas (por ejemplo, la lucha contra el spam, la predicción de los clics en los anuncios, varios modelos de clasificación) gracias a las variadas implementaciones de algoritmos de última generación que contiene. En el laboratorio, acelera la creación de prototipos de pipelines complejos. En producción puedo decir que ha demostrado ser lo suficientemente robusto y eficiente como para ser desplegado para componentes críticos de negocio.
Change.org¶
En change.org automatizamos el uso de RandomForestClassifier de scikit-learn en nuestros sistemas de producción para impulsar la segmentación del correo electrónico que llega a millones de usuarios de todo el mundo cada semana. En el laboratorio, la facilidad de uso, el rendimiento y la variedad general de algoritmos implementados de scikit-learn han demostrado ser invaluables para ofrecernos una única fuente fiable a la cual recurrir para nuestras necesidades de aprendizaje automático.
PHIMECA Engineering¶
En PHIMECA Engineering, utilizamos los estimadores de scikit-learn como sustitutos de modelos numéricos costosos de evaluar (principalmente, pero no exclusivamente, modelos mecánicos de elementos finitos) para acelerar las intensivas operaciones de posprocesamiento involucradas en nuestro framework de toma de decisiones basado en la simulación. La API fit/predict de scikit-learn, junto con sus eficientes herramientas de validación cruzada, facilita considerablemente la tarea de seleccionar el estimador que mejor se ajusta. También utilizamos scikit-learn para ilustrar conceptos en nuestras sesiones de formación. Los alumnos siempre quedan impresionados por la facilidad de uso de scikit-learn a pesar de la aparente complejidad teórica del aprendizaje automático.
HowAboutWe¶
En HowAboutWe, scikit-learn nos permite implementar una amplia gama de técnicas de aprendizaje automático en el análisis y en la producción, a pesar de tener un equipo pequeño. Utilizamos los algoritmos de clasificación de scikit-learn para predecir el comportamiento de los usuarios, lo que nos permite (por ejemplo) estimar el valor de los clientes potenciales de una determinada fuente de tráfico en una fase temprana de su permanencia en nuestro sitio. Además, los perfiles de nuestros usuarios consisten principalmente en datos no estructurados (respuestas a preguntas abiertas), por lo que utilizamos las herramientas de extracción de características y reducción de dimensionalidad de scikit-learn para convertir estos datos no estructurados en entradas para nuestro sistema de emparejamiento.
PeerIndex¶
En PeerIndex utilizamos metodología científica para construir el Gráfico de Influencia (Influence Graph) - un conjunto de datos único que nos permite identificar quién es realmente influyente y en qué contexto. Para ello, tenemos que abordar una gama de problemas de aprendizaje automático y modelado predictivo. Scikit-learn se ha convertido en nuestra principal herramienta para desarrollar prototipos y avanzar rápidamente. Desde la predicción de datos faltantes y la clasificación de tweets hasta el análisis de conglomerados de comunidades de usuarios de redes sociales, scikit-learn ha demostrado su utilidad en una gran variedad de aplicaciones. Su interfaz intuitiva y su excelente compatibilidad con otras herramientas de Python la convierten en una herramienta indispensable en nuestros esfuerzos diarios de investigación.
DataRobot¶
DataRobot está construyendo la próxima generación de software de análisis predictivo para hacer que los científicos de datos sean más productivos, y scikit-learn es una parte integral de nuestro sistema. La variedad de técnicas de aprendizaje automático en combinación con las sólidas implementaciones que ofrece scikit-learn la convierten en una biblioteca única (one-stop-shopping) para el aprendizaje automático en Python. Además, su API consistente, su código bien probado y su licencia permisiva, nos permiten utilizarla en un entorno de producción. Scikit-learn nos ha ahorrado literalmente años de trabajo que habríamos tenido que hacer nosotros mismos para sacar nuestro producto al mercado.
OkCupid¶
En OkCupid utilizamos scikit-learn para evaluar y mejorar nuestro sistema de emparejamiento. La gama de características que tiene, especialmente las utilidades de preprocesamiento, hace que podamos utilizarla para una amplia variedad de proyectos, y es lo suficientemente eficaz para manejar el volumen de datos que tenemos que clasificar. Además, la documentación es muy completa, lo que hace que la biblioteca sea muy fácil de usar.
Lovely¶
En Lovely, nos esforzamos por ofrecer el mejor marketplace de apartamentos, con respecto a nuestros usuarios y nuestros listados. Desde la comprensión del comportamiento de los usuarios, pasando por la mejora de la calidad de los datos, hasta la detección de fraudes, scikit-learn es una herramienta habitual para la recopilación de conocimientos, la elaboración de modelos predictivos y la mejora de nuestro producto. La documentación de fácil lectura y la arquitectura intuitiva de la API hacen que el aprendizaje automático sea explorable y accesible para una amplia gama de desarrolladores python. Recomiendo constantemente que más desarrolladores y científicos prueben scikit-learn.
Data Publica¶
Data Publica construye una nueva herramienta predictiva de ventas para equipos comerciales y de marketing llamada C-Radar. Utilizamos ampliamente scikit-learn para construir segmentaciones de clientes a través de análisis de conglomerados, y para predecir futuros clientes basados en el éxito o fracaso de alianzas pasadas. También categorizamos a las empresas a partir de su comunicación en el sitio web gracias a scikit-learn y sus implementaciones de algoritmos de aprendizaje automático. Finalmente, el aprendizaje automático permite detectar señales débiles que las herramientas tradicionales no pueden ver. Todas estas complejas tareas se realizan de forma fácil y sencilla gracias a la gran calidad del framework scikit-learn.
Machinalis¶
Scikit-learn es la piedra angular de todos los proyectos de aprendizaje automático llevados a cabo en Machinalis. Tiene una API consistente, una amplia selección de algoritmos y un montón de herramientas auxiliares para lidiar con el boilerplate. ¡Lo hemos utilizado en entornos de producción en una variedad de proyectos, incluyendo la predicción de la tasa de clics, la extracción de información, e incluso contando ovejas!
De hecho, lo usamos tanto que hemos empezado a congelar nuestros casos de uso comunes en paquetes de Python, algunos de ellos de código abierto, como FeatureForge . Scikit-learn en una palabra: Impresionante.
solido¶
Scikit-learn está ayudando a impulsar la Ley de Moore, a través de Solido. Solido crea herramientas de diseño asistido por computadora que utilizan la mayoría de las 20 empresas y fábricas de semiconductores más importantes, para diseñar los chips de última generación que llevan los teléfonos inteligentes, los automóviles, etc. Scikit-learn ayuda a potenciar los algoritmos de Solido para la estimación de eventos raros, la verificación del peor caso, la optimización y mucho más. En Solido, nos gustan especialmente las bibliotecas de scikit-learn para los modelos de Procesos Gaussianos, la regresión lineal regularizada a gran escala y la clasificación. Scikit-learn ha aumentado nuestra productividad, porque para muchos problemas de ML ya no necesitamos «rodar nuestro propio» código. Esta charla de PyData 2014 tiene detalles.
INFONEA¶
Empleamos scikit-learn para la creación rápida de prototipos y soluciones de Ciencia de Datos a la medida dentro de nuestro Software de Inteligencia de Negocios basado en memoria INFONEA®. Como una colección bien documentada y completa de algoritmos y métodos de pipelining de última generación, scikit-learn nos permite proporcionar soluciones de análisis científico flexibles y escalables. Por lo tanto, scikit-learn es inmensamente valioso para realizar una potente integración de la tecnología de Ciencia de Datos dentro de la analítica de negocios autoservicio (self-service).
Dataiku¶
Nuestro software, Data Science Studio (DSS), permite a los usuarios crear servicios de datos que combinan ETL con Aprendizaje Automático. Nuestro módulo de Aprendizaje Automático integra muchos algoritmos de scikit-learn. La biblioteca scikit-learn se integra perfectamente con DSS porque ofrece algoritmos para prácticamente todos los casos de negocio. Nuestro objetivo es ofrecer una herramienta transparente y flexible que facilite la optimización de los aspectos que consumen tiempo en la construcción de un servicio de datos, la preparación de los datos y el entrenamiento de los algoritmos de aprendizaje automático en todo tipo de datos.
Otto Group¶
Aquí en Otto Group, uno de los Big Five B2C minoristas online globales, utilizamos scikit-learn en todos los aspectos de nuestro trabajo diario, desde la exploración de datos hasta el desarrollo de aplicaciones de aprendizaje automático y el despliegue productivo de esos servicios. Nos ayuda a abordar problemas de aprendizaje automático que van desde el comercio electrónico hasta la logística. Sus consistentes APIs nos permitieron construir el framework Palladium REST-API a su alrededor y ofrecer continuamente servicios basados en scikit-learn.
Zopa¶
En Zopa, la primera plataforma de préstamos entre particulares (Peer-to-Peer), utilizamos ampliamente scikit-learn para dirigir el negocio y optimizar la experiencia de nuestros usuarios. Potencia nuestros modelos de Aprendizaje Automático que intervienen en el riesgo de crédito, el riesgo de fraude, el marketing y la fijación de precios, y se ha utilizado para originar al menos mil millones de GBP en préstamos Zopa. Está muy bien documentada, es potente y fácil de usar. Estamos agradecidos por las capacidades que nos ha proporcionado y por permitirnos cumplir nuestra misión de obtener dinero de forma simple y justa.
MARS¶
Scikit-Learn es parte integral del Ecosistema de Aprendizaje Automático en Mars. Ya sea que estemos diseñando mejores recetas para alimentos para mascotas o analizando de cerca nuestra cadena de suministro de cacao, Scikit-Learn se utiliza como una herramienta para crear rápidamente prototipos de ideas y llevarlas a producción. Esto nos permite comprender y satisfacer mejor las necesidades de nuestros consumidores en todo el mundo. El conjunto de herramientas de Scikit-Learn, repleto de funcionalidades, es fácil de usar y equipa a nuestros asociados con las capacidades que necesitan para resolver los retos empresariales a los que se enfrentan cada día.