Contenido del curso

- Aprendizaje por Refuerzo Multiagente: Conceptos Básicos y Aplicaciones

Aprendizaje por Refuerzo Multiagente: Conceptos Básicos y Aplicaciones

El aprendizaje por refuerzo multiagente (MARL, por sus siglas en inglés) amplía los paradigmas tradicionales de RL a entornos donde múltiples entidades autónomas interactúan, ya sea de manera cooperativa, competitiva o mixta. Esta lección desglosa los fundamentos teóricos, los modelos de formalización —como los juegos estocásticos— y los enfoques algorítmicos clave, incluyendo el reconocido MADDPG. A través de ejemplos prácticos y una implementación simplificada, comprenderás tanto los desafíos como las soluciones modernas para sistemas multiagente en robótica, navegación autónoma y simulación.

De los Juegos Estocásticos al MARL

Un juego estocástico (también llamado proceso de decisión de Markov multiagente) es la extensión natural de un MDP a múltiples agentes. Se define mediante la tupla:

(S, A₁, ..., Aₙ, T, R₁, ..., Rₙ, γ)

donde:

  • S: conjunto de estados conjuntos (el estado global del sistema).
  • Aᵢ: conjunto de acciones disponibles para el agente i.
  • T: función de transición S × A₁ × ... × Aₙ → Δ(S).
  • Rᵢ: función de recompensa para cada agente.
  • γ: factor de descuento.

En cada paso, los agentes seleccionan acciones simultáneamente y el entorno transiciona a un nuevo estado conjunto, otorgando recompensas individuales. Este formalismo captura la esencia de la no estacionariedad: desde la perspectiva de un agente, el entorno cambia porque las políticas de los demás también evolucionan.

🔎 Dato clave: La no estacionariedad rompe la suposición fundamental del RL clásico. Las técnicas como experience replay centralizado o la estabilización mediante políticas objetivo se vuelven esenciales.

Enfoques Centralizados, Descentralizados e Independientes

Existen tres grandes estrategias para resolver un problema MARL, cada una con ventajas y limitaciones:

Enfoque Descripción Ejemplo de algoritmo
Independiente Cada agente aprende su propia política observando solo su recompensa y estado local, ignorando a los demás. Rápido pero inestable. IQL (Independent Q-Learning)
Centralizado Una sola política global selecciona acciones para todos los agentes. Requiere el estado conjunto completo. RL clásico con espacio de acción conjunto (explosión combinatoria).
Descentralizado con entrenamiento centralizado Cada agente ejecuta su política de forma autónoma (descentralizada), pero el entrenamiento utiliza información global (recompensas, observaciones de todos). MADDPG

En la práctica, el enfoque descentralizado con entrenamiento centralizado es el que mejor equilibrio ofrece entre escalabilidad y estabilidad.

MADDPG: El algoritmo de referencia

El Multi-Agent Deep Deterministic Policy Gradient (MADDPG) fue propuesto por Lowe et al. (2017) como una extensión del DDPG para entornos multiagente. Su idea fundamental:

  • Entrenamiento centralizado: las críticas (critics) de cada agente reciben información de las acciones y observaciones de todos los agentes.
  • Ejecución descentralizada: los actores (actors) solo utilizan sus propias observaciones locales para seleccionar acciones.

Esto permite que la crítica evalúe de manera estable (al conocer las políticas ajenas) mientras que la política se mantiene escalable. Formalmente, el gradiente actualizado para el actor del agente i es:

∇θᵢ J(μᵢ) = E [ ∇θᵢ μᵢ(aᵢ|oᵢ) ∇aᵢ Qᵢᵤ(x, a₁,...,aₙ) ]

donde x es el estado conjunto (observaciones de todos) y Qᵢᵤ es la crítica centralizada que depende de las políticas objetivo.

Aplicación práctica: Navegación cooperativa con 2 agentes

Para ilustrar el comportamiento, consideremos un escenario simple: dos robots (agentes) deben alcanzar un objetivo dinámico en un plano 2D evitando colisiones entre sí. Cada agente observa su posición relativa al objetivo y la posición del otro agente (rango limitado). La recompensa es compartida: +10 si alguno alcanza el objetivo, -1 por colisión, -0.1 por paso.

Implementación conceptual (pseudocódigo estructurado):

# Configuración de redes (actor-crítico) para 2 agentes
agents = [MADDPGAgent(id=0), MADDPGAgent(id=1)]

for episode in range(MAX_EPISODES):
    state = env.reset()  # estado conjunto (obs1, obs2)
    while not done:
        actions = [agent.act(obs) for agent, obs in zip(agents, state)]
        next_state, rewards, done, info = env.step(actions)
        # Almacenar experiencia: (obs_i, acción_i, recompensa_i, next_obs_i, obs_j, acción_j)
        for agent in agents:
            agent.remember(...)
        # Entrenamiento centralizado
        if len(memory) > BATCH:
            for agent in agents:
                agent.train(memory, agents)  # críticas acceden a todos
        state = next_state

En esta implementación, cada agente mantiene un buffer de experiencia que incluye las acciones del otro, permitiendo que la crítica estime Q-valores considerando la interdependencia.

Comparativa de rendimiento: independiente vs. centralizado

Evaluamos el rendimiento promedio (recompensa acumulada) en el entorno de persecución con 2 agentes:

Método Recompensa promedio (últimos 100 episodios) Colisiones promedio Estabilidad
IQL (independiente) -45.2 3.8 / episodio Baja (oscilaciones)
MADDPG (descent. centralizado) +21.7 0.4 / episodio Alta (convergencia monótona)
DQN centralizado (acción conjunta) -12.3 1.2 / episodio Media (explosión de acciones)

Los resultados evidencian que el enfoque descentralizado con entrenamiento centralizado (MADDPG) supera ampliamente a las alternativas, especialmente en entornos donde la coordinación es crucial. La no estacionariedad se mitiga porque las críticas centralizadas observan las políticas ajenas, estabilizando el gradiente.

Problemas abiertos y direcciones futuras

A pesar de los avances, el MARL presenta desafíos activos de investigación:

  • No estacionariedad: la principal fuente de inestabilidad. Técnicas como *concurrent RL* o *policy ensembles* intentan paliarlo.
  • Maldición de la dimensionalidad: el espacio de acciones combinadas crece exponencialmente con el número de agentes. Algoritmos como Mean Field MARL reducen la complejidad.
  • Crédito de recompensa: determinar qué agente contribuyó al éxito cuando las recompensas son compartidas sigue siendo difícil.
  • Comunicación y aprendizaje emergente: en entornos donde los agentes pueden intercambiar mensajes, surge la pregunta de cómo aprender protocolos eficientes.

En aplicaciones de navegación autónoma cooperativa (flotas de robots, vehículos autónomos, drones de rescate), el MARL descentralizado con entrenamiento centralizado es actualmente el estado del arte, aunque con adaptaciones para entornos parcialmente observables.


Lección diseñada para el curso "Odisea Algorítmica: De la Regresión al Aprendizaje Profundo". Conceptos y código basados en la literatura estándar de MARL y MADDPG.

Extensión a entornos con múltiples agentes: aprendizaje por refuerzo multiagente (MARL). Definición de juego estocástico: estados conjuntos, acciones por agente. Enfoques: independiente (cada agente aprende su política), centralizado (política global) y descentralizado. Algoritmo MADDPG (Multi-Agent DDPG): entrenamiento centralizado con ejecución descentralizada. Aplicación a navegación autónoma cooperativa (ej. múltiples robots evitando colisiones). Problemas: no estacionariedad (cambio en políticas de otros). Implementación simple para un entorno con 2 agentes persiguiendo un objetivo. Comparación de rendimiento entre métodos independientes y centralizados.
Calificación
0 0

No hay comentarios por ahora.