Trazar un rumbo empresarial para el aprendizaje por refuerzo
Los líderes que buscan nuevas formas en que la inteligencia artificial (IA) pueda proporcionar una ventaja competitiva pueden haber encontrado el partido de la Copa América 2021 tan emocionante por el uso innovador del aprendizaje por refuerzo por parte de un equipo como por sus diseños radicales de barcos y regatas reñidas.
Para seguir siendo competitivos, los equipos de navegación en la Copa América, como todas las empresas, deben traspasar los límites de lo posible. También enfrentan limitaciones similares, incluida una curva de desarrollo pronunciada y una pequeña ventana de oportunidad, lo que significa que los equipos sólo pueden realizar uno o dos grandes experimentos para mejorar su desempeño en la competencia más importante del deporte.
Para la edición 2021 de la Copa América, el actual campeón Emirates Team New Zealand aventuró que el aprendizaje por refuerzo, una técnica avanzada de IA, podría optimizar su proceso de diseño. La técnica funcionó, lo que permitió al equipo probar exponencialmente más diseños de embarcaciones y lograr una ventaja de rendimiento que le ayudó a conseguir su cuarta victoria en la Copa.
A diferencia de otros tipos de aprendizaje automático, el aprendizaje por refuerzo utiliza algoritmos (que a menudo entrenan a agentes o robots de IA) que normalmente no se basan únicamente en conjuntos de datos históricos, ya sean etiquetados o no, para aprender a hacer una predicción o realizar una tarea. Aprenden como suelen hacer los humanos, mediante prueba y error. En los últimos años, la tecnología ha madurado de tal manera que la hace altamente escalable y capaz de optimizar la toma de decisiones en entornos complejos y dinámicos.
Además de acelerar y mejorar el diseño, el aprendizaje por refuerzo se incorpora cada vez más a una amplia gama de aplicaciones complejas: recomendar productos en sistemas donde los comportamientos y preferencias de los clientes cambian rápidamente; pronóstico de series de tiempo en condiciones altamente dinámicas; resolver problemas logísticos complejos que combinan embalaje, ruta y programación; e incluso acelerar los ensayos clínicos y los análisis de impacto de las políticas económicas y sanitarias en consumidores y pacientes.
Hemos visto con qué rapidez puede cambiar el entorno tecnológico. Hace sólo unos años, otra técnica de IA, el aprendizaje profundo, irrumpió en la escena empresarial. Hoy en día, el 30 por ciento de las empresas de alta tecnología y telecomunicaciones y el 16 por ciento de las empresas de otras industrias que encuestamos tienen capacidades integradas de aprendizaje profundo.
Estas son algunas de las aplicaciones de la técnica más comentadas en los últimos años:
Los ejecutivos que hoy comprenden el potencial del aprendizaje por refuerzo estarán, como Emirates Team New Zealand, mejor posicionados para encontrar la ventaja en sus industrias (consulte la barra lateral “Ejemplos notables de aplicaciones de aprendizaje por refuerzo”). Comprender la experiencia del equipo puede ayudar a los líderes a evaluar dónde y cuándo usar la tecnología porque muchas organizaciones recorrerán un camino similar: implementar tecnologías más tradicionales primero para resolver un problema y luego aplicar el aprendizaje reforzado para ascender a un nivel de desempeño que antes era inalcanzable. Por lo tanto, comenzamos contando el viaje del Emirates Team New Zealand, después de lo cual ofrecemos ideas sobre dónde y cómo las empresas deberían considerar aplicar el aprendizaje por refuerzo.
Los diseñadores del Emirates Team New Zealand no eran nuevos en las tecnologías avanzadas. En 2010, el equipo construyó su simulador digital de última generación para probar diseños de barcos sin tener que construirlos físicamente. Esta fue la clave para la victoria del equipo en la Copa América 2017, pero el simulador tenía limitaciones. Se necesitaban varios marineros para operarlo de manera óptima, lo que supuso un desafío logístico importante dadas las prácticas, los viajes y las competiciones programados de los marineros. Como resultado, los diseñadores normalmente iteraban sobre nuevos diseños en ausencia de datos de rendimiento del simulador y luego probaban sus mejores ideas en lotes cuando podían dedicar grandes bloques de tiempo a los marineros. Además, el desempeño de los marineros podría variar entre pruebas, como suele ocurrir con el desempeño humano, lo que dificulta que los diseñadores sepan si una mejora marginal en la respuesta del barco se debió a un ajuste del diseño o a variaciones en las pruebas humanas.
Para navegar tan bien como los mejores navegantes del mundo, el agente de IA necesitaba aprender a ejecutar diferentes maniobras en diferentes condiciones, eligiendo el mejor rumbo bajo una amplia variedad de vientos y mares, ajustando 14 controles diferentes del barco en consecuencia, evaluando los resultados de sus decisiones y mejorarlas continuamente a lo largo de horizontes temporales prolongados. Los expertos en la materia y los científicos de datos dieron al agente ejemplos de los cuales aprender y establecieron recompensas para que el agente guiara sus elecciones, incluido el sacrificio de beneficios a corto plazo por beneficios a largo plazo. Los expertos también tuvieron que pensar en las limitaciones del mundo real que los humanos a menudo damos por sentado. Por ejemplo, el agente no sabía inicialmente que el barco sólo podía navegar en posición vertical; Al principio, intentó explotar una laguna en el sistema navegando boca abajo, algo que un humano sabría que es imposible.
El equipo de diseño del Emirates Team New Zealand comparó periódicamente el desempeño de los agentes en el simulador con el de los marineros, y si el desempeño de un agente seguía siendo deficiente, los expertos modificaban el sistema de recompensas. Para acelerar el proceso de capacitación, se implementó una red de más de 1000 agentes de IA funcionando en paralelo, para que cada agente pudiera aprender de las mejores experiencias colectivas. De esta manera, los agentes alcanzaron rápidamente un nivel de dominio para superar a los regatistas campeones del mundo en el simulador y comenzar a probar conceptos de diseño para el equipo.
Mientras Emirates Team New Zealand se preparaba para el partido de 2021, sabían que si podían conseguir un sistema de inteligencia artificial para ejecutar el simulador, los diseñadores podrían probar más ideas de diseño de manera más rápida y consistente que con el simulador digital solo. Al principio, el equipo no estaba seguro de si la idea era factible, pero a medida que las conversaciones sobre la tecnología se arremolinaban, los miembros del equipo estuvieron de acuerdo: la recompensa potencial era transformadora y hacía que valiera la pena intentarlo. Utilizando el aprendizaje por refuerzo, los expertos de Emirates Team New Zealand, McKinsey y QuantumBlack (una empresa de McKinsey) entrenaron con éxito a un agente de IA para navegar el barco en el simulador (consulte la barra lateral “Enseñar a navegar a un agente de IA” para obtener detalles sobre cómo lo hicieron). ).
Si bien las reglas de diseño para la Copa América especifican la mayoría de los componentes del barco, dejan suficiente libertad para que los diseñadores tomen decisiones radicales sobre algunos elementos clave, como los hidroalas. Estas estructuras en forma de alas se adhieren al casco y elevan el barco sobre el agua, lo que le permite alcanzar velocidades de más de 50 nudos (60 millas o 100 kilómetros por hora). Los hidroalas pueden ser un factor importante en la carrera, pero las reglas de la carrera permitieron a los equipos construir solo seis hidroalas de tamaño completo en total.
Utilizando el agente capacitado en aprendizaje por refuerzo para controlar el simulador, los diseñadores del Emirates Team New Zealand pudieron evaluar miles de conceptos de diseño de hidroalas en lugar de solo cientos en su búsqueda de un diseño ganador. Esto les dio información valiosa sobre cómo podría funcionar un barco en el agua antes de emprender una construcción costosa y, en el proceso, reduciría drásticamente el precio del diseño para futuras regatas. Además, a medida que los conocimientos de navegación de los agentes del Emirates Team New Zealand aumentaron con el tiempo, los marineros comenzaron a aprender maniobras de los agentes que no habían considerado, lo que les permitió mejorar su rendimiento para un diseño determinado.
El corazón del desafío del Emirates Team New Zealand era resolver un problema empresarial complejo en un entorno dinámico donde las variables cambian de manera impredecible, el estado final ideal está vagamente definido y la única forma en que el sistema podía aprender sobre su entorno era interactuando. con eso.
Esa situación es análoga a los problemas que enfrentan los minoristas, fabricantes, servicios públicos y empresas de muchas otras industrias. Por ejemplo, mientras que antes los minoristas podían esperar razonablemente que los comportamientos pasados de los consumidores indicaran preferencias futuras, ahora operan en un mundo donde los patrones y preferencias de compra de los consumidores evolucionan rápidamente, tanto más ahora que la pandemia de COVID-19 redefine repetidamente la vida. Los fabricantes y las empresas de bienes de consumo envasados están bajo presión para construir cadenas de suministro dinámicas que tengan en cuenta los cambios climáticos, políticos y sociales en cualquier parte del mundo en cualquier momento.
Cada uno de estos desafíos representa un problema de optimización complejo y altamente dinámico que, con los datos y los ciclos de retroalimentación adecuados, es muy adecuado para resolver con aprendizaje reforzado.
El atractivo del aprendizaje por refuerzo para problemas con muchas acciones y rutas posibles es que no es necesario programar explícitamente el agente de IA. Debido a que aprende de ejemplos y se aprende a sí mismo mediante prueba y error, puede proponer soluciones novedosas y adaptables, muchas veces más rápido que los humanos.
Un agente de IA aprende mediante prueba y error. En términos simples, el agente realiza acciones dentro de un entorno y recibe recompensas cuando realiza las acciones "correctas". Trabaja para encontrar la secuencia de acciones que maximice las recompensas acumuladas que recibe. Los científicos de datos y los expertos en la materia definen la función de recompensa del agente. Esta forma de aprendizaje es sólo un aspecto del aprendizaje por refuerzo que lo diferencia de otras técnicas de IA (consulte el Anexo 1 y la “Guía para ejecutivos de IA” para obtener más información sobre los diferentes tipos de aprendizaje automático).
Emirates Team New Zealand, por ejemplo, pudo probar múltiples diseños simultáneamente (algo que los marineros nunca pudieron hacer), probar diez veces más diseños en más condiciones de las que habían sido posibles anteriormente y obtener información del agente de IA sobre nuevas formas en que sus marineros podrían ejecutar en estos diseños de barcos en el agua.
En términos generales, vemos que el aprendizaje reforzado ofrece este valor en toda la empresa, con aplicaciones potenciales en todos los ámbitos empresariales e industrias (Anexo 2). Algunas de las aplicaciones a corto plazo del aprendizaje por refuerzo se dividen en tres categorías: acelerar el diseño y el desarrollo de productos, optimizar operaciones complejas y guiar las interacciones con los clientes.
El aprendizaje por refuerzo puede mejorar el desarrollo de productos, sistemas de ingeniería, plantas de fabricación, refinerías de petróleo, redes de telecomunicaciones o de servicios públicos y otros proyectos de capital. Las empresas mineras podrían, por ejemplo, explorar una gama más amplia de diseños de minas que la que sería posible con otras técnicas de IA que se utilizan hoy en día para mejorar el rendimiento. Un fabricante de automóviles ya está explorando cómo los agentes capacitados mediante aprendizaje por refuerzo pueden permitirle probar más ideas para el frenado regenerativo en vehículos eléctricos nuevos, de modo que pueda optimizar el diseño en función del ruido, la vibración y el calor.
La capacidad del aprendizaje por refuerzo para resolver problemas complejos le otorga un alto potencial para optimizar operaciones complejas. Inicialmente, vemos tres aplicaciones principales del aprendizaje por refuerzo en esta área.
En primer lugar, el aprendizaje por refuerzo puede ayudar a las organizaciones a identificar las acciones correctas a tomar en toda la cadena de valor a medida que se desarrollan los eventos. Una empresa de transporte, por ejemplo, puede optimizar las rutas de viaje en tiempo real en función de los cambios en el tráfico, el clima y las condiciones de seguridad. Un productor de alimentos puede optimizar la distribución de productos en todo el mundo en medio de fluctuaciones diarias, incluso horarias, de la demanda y los tipos de cambio, variaciones de las rutas de envío y más.
También puede ayudar a los equipos a gestionar procesos de fabricación complejos. Por ejemplo, puede permitir a los equipos monitorear la producción en tiempo real, simulando diferentes escenarios y actualizando parámetros clave para aumentar la producción de manera dinámica. Los fabricantes que ya han utilizado el aprendizaje automático para minimizar los defectos de los productos ahora pueden ampliar sus conocimientos con el aprendizaje por refuerzo para prevenir los raros defectos restantes que aparecen de forma intermitente sin una causa raíz aparentemente común.
Finalmente, el aprendizaje por refuerzo puede impulsar controladores de sistemas autónomos, por ejemplo, monitoreando y ajustando continuamente las temperaturas de funcionamiento de los equipos para garantizar un rendimiento óptimo o haciendo funcionar un brazo robótico en la planta de fabricación.
Cuando se integra dentro de los sistemas de personalización y recomendación, el aprendizaje por refuerzo puede ayudar a las organizaciones a comprender, identificar y responder a los cambios de gusto en tiempo real, personalizando mensajes y adaptando promociones, ofertas y recomendaciones diariamente.
Sin duda, implementar el aprendizaje por refuerzo es una tarea técnica desafiante. Un sistema de aprendizaje por refuerzo exitoso hoy en día requiere, en términos simples, tres ingredientes:
Hace unos años, el costo y la complejidad de construir y capacitar estos sistemas estaban fuera del alcance de todos, excepto unos pocos líderes tecnológicos. Sin embargo, importantes avances tecnológicos para abordar estos obstáculos han hecho que el aprendizaje por refuerzo sea más accesible para más empresas, y la evolución continua de las herramientas necesarias está poniendo rápidamente la tecnología al alcance de todas las empresas.
Las últimas iteraciones en algoritmos de aprendizaje por refuerzo, como el actor crítico suave, están mejorando drásticamente la eficiencia del entrenamiento, reduciendo sustancialmente los costos de computación. Al mismo tiempo, el costo de la informática en sí ha disminuido significativamente. Las empresas ahora pueden acceder a sistemas especializados en la nube y pagar sólo por lo que utilizan. Además, las nuevas herramientas y estrategias permiten a los equipos gestionar la informática que utilizan. Por ejemplo, las herramientas de desarrollo y asignación de recursos ahora disponibles permiten a los equipos identificar la computación menos costosa (o más eficiente) en un momento dado para un propósito determinado.
Las últimas iteraciones en algoritmos de aprendizaje por refuerzo, como el actor crítico suave, están mejorando drásticamente la eficiencia del entrenamiento, reduciendo sustancialmente los costos de computación.
Dicho esto, para que la tecnología se utilice más ampliamente, los costos de computación para las tareas de aprendizaje por refuerzo deberán reducirse aún más. Esperamos que eso suceda en el futuro cercano por varias razones, incluida la creciente competencia entre los proveedores de nube.
Los proveedores de la nube también han intensificado sus esfuerzos para ofrecer marcos preempaquetados y listos para la empresa que se puedan implementar en forma de línea de ensamblaje e incluyan las herramientas, protocolos, interfaces de programación de aplicaciones (API), bibliotecas de código abierto (como RLlib) y otras tecnologías para eliminar parte del trabajo de codificación e integración manual. Los marcos pueden, por ejemplo, permitir a los equipos ejecutar trabajos de capacitación en docenas de sistemas usando una sola línea de código, en lugar de tener que programar esta capacidad desde cero. En Emirates Team New Zealand, el equipo de desarrollo se basó en dichos marcos siempre que fue posible y luego se centró en las tareas de valor añadido que aún no se habían convertido en productos básicos.
Aún queda trabajo por hacer. Todavía no existe un marco único listo para usar para ofrecer soluciones de aprendizaje por refuerzo. Anticipamos que algo como esto estará disponible en unos años a través de los principales proveedores de nube. Los esfuerzos en curso en esta área incluyen el Proyecto Bonsai de Microsoft, SageMaker RL de Amazon y SEED RL de Google.
Las mismas prácticas fundamentales y cambios organizacionales y culturales en los que las empresas ya están invirtiendo para otras IA también se aplican al aprendizaje por refuerzo. Sin embargo, dada la temprana madurez del aprendizaje por refuerzo y sus requisitos y habilidades únicos, los líderes deben tener algunas estrategias en mente.
Comience por identificar los procesos en los que el aprendizaje por refuerzo podría liberar a la empresa para optimizar el rendimiento de alguna manera, tal vez consultando el Anexo 2 para obtener algunas ideas. Lo ideal es seleccionar un proceso en el que ya exista algún tipo de entorno de aprendizaje que pueda adaptarse para capacitar a los agentes de IA.
Según nuestra experiencia, una de las mejores maneras de saber si un proceso determinado está listo para el aprendizaje por refuerzo es preguntar: "¿Qué desafíos comerciales no hemos podido resolver con enfoques de modelado tradicionales?" Busque áreas donde los equipos estén llevando a cabo proyectos de IA con otros métodos pero no hayan podido llevarlos a producción porque el entorno es demasiado dinámico y los modelos arrojan resultados inconsistentes, requieren demasiadas suposiciones y aproximaciones sobre los datos, o no pueden manejar los alcance completo de las necesidades del negocio. En el Emirates Team New Zealand, por ejemplo, los circuitos de prueba para nuevos diseños de embarcaciones se veían constantemente interrumpidos por los horarios de los regatistas, y tenía un alto costo alejar a los regatistas de otras actividades.
El problema correcto también debería ser aquel en el que no sea necesario saber por qué el sistema de aprendizaje por refuerzo funciona como lo hace. Por ahora, estos sistemas no son fácilmente explicables, en todo caso, dada la complejidad de las redes neuronales que a menudo están integradas en ellos. Por lo tanto, el aprendizaje reforzado podría no ser adecuado para situaciones en las que los reguladores u operadores exigen transparencia.
Delinear la función de recompensa para permitir que un agente de IA aprenda de manera efectiva requiere tanto arte como ciencia, lo que a menudo la convierte en la parte más costosa del proceso de desarrollo. Los expertos en la materia y los científicos de datos necesitan perfeccionar constantemente los incentivos, comúnmente conocido como piratería de recompensas, para descubrir cómo calibrar adecuadamente las recompensas para permitir que un agente tome decisiones complejas de manera óptima.
Los equipos pueden utilizar los primeros principios para estimar los costos potenciales, y los líderes deben comprender y discutir los posibles generadores de costos con sus equipos desde el principio para ayudar a garantizar un proceso más fluido y liberar a los equipos para concentrarse en el trabajo por delante.
Muchas organizaciones centradas en la fabricación y las operaciones ya utilizan la simulación o un gemelo digital para ajustar el rendimiento y la utilización de los activos. Sin embargo, incluso en estas industrias, podrían ser necesarias actualizaciones para permitir el aprendizaje por refuerzo. Muchos simuladores tradicionales están diseñados para ejecutarse a pequeña escala, en las instalaciones, con solo una simulación ejecutándose a la vez, y una persona usa una interfaz física, como un joystick, para controlarlo. Será necesario cambiar la plataforma de dicho simulador en un entorno de nube para que pueda ejecutar miles de simulaciones en paralelo, y debe actualizarse con una API que permita a los agentes de IA interactuar con él.
En todos los casos, ya sea construyendo o reconstruyendo simuladores digitales, las organizaciones deben pensar más allá de sus casos de uso existentes y tomar decisiones de diseño que brinden flexibilidad para admitir casos de uso más avanzados que quizás aún no estén en su radar. La tecnología de aprendizaje por refuerzo está madurando rápidamente, por lo que dicha planificación permitirá a las empresas implementar nuevas soluciones de aprendizaje por refuerzo más rápido que las empresas que no lo hacen.
Las implementaciones tienen más éxito cuando los líderes reconocen que el mayor valor proviene del uso de la tecnología para aumentar y expandir el desempeño humano en lugar de reemplazarlo. Cualquier iniciativa de IA se basa en la experiencia en el dominio para ayudar a los equipos de IA a definir adecuadamente el caso de uso, determinar qué fuentes de datos utilizar, garantizar que las predicciones y recomendaciones de la IA tengan sentido y puedan integrarse con éxito en sus flujos de trabajo, y guiar la gestión de cambios. En el aprendizaje por refuerzo, los expertos en el dominio deben hacer todo esto y más, trabajando con científicos de datos diariamente para idear y probar diferentes recompensas para construir una función de recompensa efectiva y luego monitorear el desempeño del agente de IA después de la implementación.
Las implementaciones tienen más éxito cuando los líderes reconocen que el mayor valor proviene del uso de la tecnología para aumentar y expandir el desempeño humano en lugar de reemplazarlo.
Las organizaciones también deben considerar si necesitan un ser humano al tanto para ayudar a guiar las decisiones finales. En Emirates Team New Zealand, después de que los agentes de IA recomendaran los mejores diseños entre los miles que probaron, los navegantes tomaron el timón del simulador digital una vez más para probar los mejores hidroalas y priorizar las selecciones finales.
Al elegir dónde implementar el aprendizaje por refuerzo, es importante reconocer las preocupaciones de los empleados y de la sociedad sobre la explicabilidad y el uso de los sistemas autónomos. Nuestros colegas han escrito extensamente sobre las consecuencias no deseadas que pueden surgir de la IA cuando las organizaciones no comprenden completamente los posibles riesgos y sobre el papel del líder en la construcción de sistemas de IA de manera responsable. A medida que el aprendizaje por refuerzo gane terreno, los líderes necesitarán desarrollar su conocimiento en torno a las preocupaciones e interdependencias éticas y cómo gestionarlas de manera efectiva, para que puedan guiar a su empresa sobre cuándo probar o no esta nueva técnica.
Las tecnologías que permiten el aprendizaje por refuerzo están avanzando rápidamente: los costos y la complejidad de la computación están disminuyendo a medida que la industria evoluciona hacia algoritmos de autoaprendizaje más adaptables y pone a disposición de las organizaciones sistemas más complejos como servicios de alto nivel. Con esto, la adopción está aumentando y, en unos años, anticipamos que el aprendizaje por refuerzo será más común en muchas industrias, como las de telecomunicaciones, farmacéutica e industrias avanzadas. Dentro de cinco años, probablemente estará en la caja de herramientas de IA de todas las organizaciones líderes, ayudando a las empresas a descubrir estrategias innovadoras y movimientos pioneros que las técnicas más establecidas tal vez no puedan lograr y a alcanzar el siguiente nivel de desempeño que hasta ahora ha eludido el alcance humano.
Jacomo Corbo, con sede en Londres, es socio de QuantumBlack, una empresa de McKinsey;Oliver Fleming , con sede en Sydney, es socio asociado experto de QuantumBlack; yNicolás Hohn, con sede en Melbourne, es un experto senior en QuantumBlack.
Los autores desean agradecer a Zara Davis por sus contribuciones a este artículo.
Juego de azar:Minorista:Bien social:Deportes:Automotor:Jacomo CorboOliver FlemingNicolás Hohn