EITC/AI/ARL Advanced Reinforcement Learning es el programa europeo de certificación de TI sobre el enfoque de DeepMind para el aprendizaje por refuerzo en inteligencia artificial.
El currículo del Aprendizaje por Refuerzo Avanzado EITC/AI/ARL se enfoca en aspectos teóricos y habilidades prácticas en técnicas de aprendizaje por refuerzo desde la perspectiva de DeepMind organizado dentro de la siguiente estructura, abarcando contenido didáctico integral en video como referencia para esta Certificación EITC.
El aprendizaje por refuerzo (RL) es un área del aprendizaje automático que se ocupa de cómo los agentes inteligentes deben tomar acciones en un entorno para maximizar la noción de recompensa acumulativa. El aprendizaje por refuerzo es uno de los tres paradigmas básicos del aprendizaje automático, junto con el aprendizaje supervisado y el aprendizaje no supervisado.
El aprendizaje reforzado se diferencia del aprendizaje supervisado en que no necesita que se presenten pares de entrada/salida etiquetados y en que no necesita que se corrijan explícitamente acciones subóptimas. En cambio, la atención se centra en encontrar un equilibrio entre la exploración (de un territorio inexplorado) y la explotación (del conocimiento actual).
El entorno se establece típicamente en forma de un proceso de decisión de Markov (MDP), porque muchos algoritmos de aprendizaje por refuerzo para este contexto utilizan técnicas de programación dinámica. La principal diferencia entre los métodos clásicos de programación dinámica y los algoritmos de aprendizaje por refuerzo es que estos últimos no asumen el conocimiento de un modelo matemático exacto del MDP y se dirigen a MDP grandes donde los métodos exactos se vuelven inviables.
Debido a su generalidad, el aprendizaje por refuerzo se estudia en muchas disciplinas, como la teoría de juegos, la teoría de control, la investigación de operaciones, la teoría de la información, la optimización basada en simulación, los sistemas multiagente, la inteligencia de enjambre y la estadística. En la literatura de control e investigación de operaciones, el aprendizaje por refuerzo se denomina programación dinámica aproximada o programación neurodinámica. Los problemas de interés en el aprendizaje por refuerzo también se han estudiado en la teoría del control óptimo, que se ocupa principalmente de la existencia y caracterización de soluciones óptimas y algoritmos para su cálculo exacto, y menos del aprendizaje o aproximación, particularmente en ausencia de un modelo matemático del medio ambiente. En economía y teoría de juegos, el aprendizaje por refuerzo se puede utilizar para explicar cómo puede surgir el equilibrio bajo la racionalidad limitada.
El refuerzo básico se modela como un proceso de decisión de Markov (MDP). En matemáticas, un proceso de decisión de Markov (MDP) es un proceso de control estocástico en tiempo discreto. Proporciona un marco matemático para modelar la toma de decisiones en situaciones donde los resultados son en parte aleatorios y en parte bajo el control de quien toma las decisiones. Los MDP son útiles para estudiar problemas de optimización resueltos mediante programación dinámica. Los MDP se conocían al menos desde la década de 1950. Un cuerpo central de investigación sobre los procesos de decisión de Markov resultó del libro de 1960 de Ronald Howard, Programación dinámica y procesos de Markov. Se utilizan en muchas disciplinas, incluida la robótica, el control automático, la economía y la fabricación. El nombre de los MDP proviene del matemático ruso Andrey Markov, ya que son una extensión de las cadenas de Markov.
En cada paso de tiempo, el proceso se encuentra en algún estado S, y el tomador de decisiones puede elegir cualquier acción a que esté disponible en el estado S. El proceso responde en el siguiente paso de tiempo moviéndose aleatoriamente a un nuevo estado S ', y dando la tomador de decisiones una recompensa correspondiente Ra (S, S ').
La probabilidad de que el proceso pase a su nuevo estado S 'está influenciada por la acción elegida a. Específicamente, está dado por la función de transición de estado Pa (S, S '). Por tanto, el siguiente estado S 'depende del estado actual S y de la acción a del tomador de decisiones. Pero dado S y a, es condicionalmente independiente de todos los estados y acciones anteriores. En otras palabras, las transiciones de estado de un MDP satisfacen la propiedad de Markov.
Los procesos de decisión de Markov son una extensión de las cadenas de Markov; la diferencia es la suma de acciones (que permiten elegir) y recompensas (que dan motivación). Por el contrario, si solo existe una acción para cada estado (por ejemplo, "esperar") y todas las recompensas son iguales (por ejemplo, "cero"), un proceso de decisión de Markov se reduce a una cadena de Markov.
Un agente de aprendizaje por refuerzo interactúa con su entorno en pasos de tiempo discretos. En cada momento t, el agente recibe el estado actual S (t) y la recompensa r (t). A continuación, elige una acción a (t) del conjunto de acciones disponibles, que posteriormente se envía al entorno. El entorno pasa a un nuevo estado S (t + 1) y se determina la recompensa r (t + 1) asociada con la transición. El objetivo de un agente de aprendizaje por refuerzo es aprender una política que maximice la recompensa acumulativa esperada.
La formulación del problema como un MDP supone que el agente observa directamente el estado ambiental actual. En este caso, se dice que el problema es completamente observable. Si el agente solo tiene acceso a un subconjunto de estados, o si los estados observados están corrompidos por el ruido, se dice que el agente tiene una observabilidad parcial y formalmente el problema debe formularse como un proceso de decisión de Markov parcialmente observable. En ambos casos, el conjunto de acciones disponibles para el agente se puede restringir. Por ejemplo, el estado del saldo de una cuenta podría restringirse a positivo; si el valor actual del estado es 3 y la transición del estado intenta reducir el valor en 4, no se permitirá la transición.
Cuando se compara el desempeño del agente con el de un agente que actúa de manera óptima, la diferencia en el desempeño da lugar a la noción de arrepentimiento. Para actuar casi de manera óptima, el agente debe razonar sobre las consecuencias a largo plazo de sus acciones (es decir, maximizar los ingresos futuros), aunque la recompensa inmediata asociada con esto podría ser negativa.
Por lo tanto, el aprendizaje por refuerzo es particularmente adecuado para problemas que incluyen una compensación de recompensa a largo plazo versus a corto plazo. Se ha aplicado con éxito a varios problemas, incluido el control de robots, la programación de ascensores, las telecomunicaciones, el backgammon, las damas y el Go (AlphaGo).
Dos elementos hacen que el aprendizaje por refuerzo sea poderoso: el uso de muestras para optimizar el rendimiento y el uso de la aproximación de funciones para tratar con entornos grandes. Gracias a estos dos componentes clave, el aprendizaje por refuerzo se puede utilizar en entornos grandes en las siguientes situaciones:
- Se conoce un modelo del entorno, pero no se dispone de una solución analítica.
- Solo se proporciona un modelo de simulación del entorno (el tema de la optimización basada en simulación).
- La única forma de recopilar información sobre el medio ambiente es interactuar con él.
Los dos primeros de estos problemas podrían considerarse problemas de planificación (ya que se dispone de algún tipo de modelo), mientras que el último podría considerarse un problema de aprendizaje genuino. Sin embargo, el aprendizaje por refuerzo convierte ambos problemas de planificación en problemas de aprendizaje automático.
La compensación entre exploración y explotación se ha estudiado más a fondo a través del problema de los bandidos con múltiples brazos y para los MDP de espacios de estados finitos en Burnetas y Katehakis (1997).
El aprendizaje por refuerzo requiere mecanismos de exploración inteligentes; La selección de acciones al azar, sin referencia a una distribución de probabilidad estimada, muestra un desempeño deficiente. El caso de los (pequeños) procesos de decisión finitos de Markov se comprende relativamente bien. Sin embargo, debido a la falta de algoritmos que escalen bien con el número de estados (o escalen a problemas con espacios de estados infinitos), los métodos de exploración simples son los más prácticos.
Incluso si se pasa por alto el tema de la exploración e incluso si el estado era observable, el problema sigue siendo utilizar la experiencia pasada para descubrir qué acciones conducen a mayores recompensas acumulativas.
Para familiarizarse en detalle con el plan de estudios de certificación, puede ampliar y analizar la tabla a continuación.
El plan de estudios de certificación de aprendizaje de refuerzo avanzado EITC/AI/ARL hace referencia a materiales didácticos de acceso abierto en forma de video. El proceso de aprendizaje se divide en una estructura paso a paso (programas -> lecciones -> temas) que cubre partes relevantes del plan de estudios. También se proporciona consultoría ilimitada con expertos en dominios.
Para obtener más información sobre el procedimiento de certificación, consulte ¿Cómo funciona?.
Recursos de referencia del plan de estudios
Control a nivel humano a través de la publicación Deep Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Curso de acceso abierto sobre aprendizaje por refuerzo profundo en UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL aplicado al problema de bandidos con brazalete K de Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Descargue los materiales preparatorios completos de autoaprendizaje fuera de línea para el programa de aprendizaje por refuerzo avanzado EITC/AI/ARL en un archivo PDF
Materiales preparatorios EITC/AI/ARL – versión estándar
Materiales preparatorios del EITC/AI/ARL – versión ampliada con preguntas de repaso