Contenido del curso

- Fundamentos del Aprendizaje por Refuerzo: MDP, Recompensas y Ecuación de Bellman

Fundamentos del Aprendizaje por Refuerzo: MDP, Recompensas y Ecuación de Bellman

El Aprendizaje por Refuerzo (RL) es uno de los paradigmas más fascinantes dentro de la inteligencia artificial, donde un agente aprende a tomar decisiones secuenciales mediante la interacción con un entorno. En el corazón de esta disciplina se encuentra el marco de los Procesos de Decisión de Markov (MDP), una formalización matemática que modela problemas de decisión en los que los resultados son parcialmente aleatorios y están bajo el control de un decisor. Esta lección te guiará desde los componentes básicos del MDP hasta la ecuación de Bellman, pilar de la planificación óptima.

1. El framework MDP: Estados, Acciones y Transiciones

Un Proceso de Decisión de Markov (MDP) es una tupla de cinco elementos: estados, acciones, probabilidades de transición, función de recompensa y factor de descuento. Formalmente: (S, A, P, R, γ). Vamos a desglosar cada componente:

  • Estados (S): conjunto finito o infinito de situaciones en las que se puede encontrar el agente. Por ejemplo, en un laberinto, cada celda es un estado.
  • Acciones (A): conjunto de movimientos que el agente puede ejecutar. Puede depender del estado: A(s).
  • Probabilidad de transición (P): función P(s' | s, a) que indica la probabilidad de llegar al estado s' desde el estado s tras ejecutar la acción a.
  • Función de recompensa (R): R(s, a, s') o simplemente R(s), devuelve un valor numérico (la recompensa inmediata) que recibe el agente al realizar una transición.
  • Factor de descuento (γ): coeficiente entre 0 y 1 que pondera la importancia de las recompensas futuras.

La propiedad de Markov establece que la probabilidad de transición solo depende del estado actual y de la acción, no de la historia pasada: P(s_{t+1} | s_t, a_t). Esto simplifica enormemente el modelado.

Diagrama conceptual de un MDP (laberinto 2x2):
(S1) ←→ (S2)
(S3) ←→ (S4) [destino +1]
El agente puede moverse en cuatro direcciones; si choca contra un muro, se queda en el mismo estado.

2. Retorno descontado y factor de descuento γ

El objetivo del agente es maximizar la suma acumulada de recompensas a lo largo del tiempo, pero las recompensas inmediatas suelen ser más valiosas que las futuras. Por ello se define el retorno descontado G_t como:

Gt = Rt+1 + γ Rt+2 + γ2 Rt+3 + ... = ∑k=0 γk Rt+k+1

El factor de descuento γ ∈ [0,1] cumple varias funciones:

  • γ cercano a 0: el agente es “miope”, prioriza recompensas inmediatas.
  • γ cercano a 1: el agente es “visionario”, valora casi por igual las recompensas futuras.
  • γ = 0: solo importa la recompensa inmediata.
  • γ = 1: todas las recompensas tienen el mismo peso (puede divergir en entornos infinitos).

Matemáticamente, el descuento asegura que la suma sea finita en horizontes infinitos y permite formular algoritmos estables.

3. Ecuación de Bellman para el valor de estado

La función de valor de estado V(s) estima el retorno total esperado desde el estado s siguiendo una política π. La ecuación de Bellman para V(s) expresa una relación recursiva fundamental:

Vπ(s) = ∑a π(a|s) ∑s', r P(s', r | s, a) [ r + γ Vπ(s') ]

En el caso de la función de valor óptima V*(s), se toma el máximo sobre las acciones:

V*(s) = maxas', r P(s', r | s, a) [ r + γ V*(s') ]

Esta ecuación es la base de la programación dinámica y de algoritmos como la iteración de valor. Cada estado actual se define en términos del valor del siguiente estado, formando un sistema de ecuaciones que puede resolverse si se conoce la dinámica del MDP.

4. Valor de acción (Q) y su ecuación de Bellman

La función de valor de acción Q(s, a) representa el retorno esperado si el agente ejecuta la acción a en el estado s y luego sigue la política π. Su ecuación de Bellman es:

Qπ(s, a) = ∑s', r P(s', r | s, a) [ r + γ ∑a' π(a'|s') Qπ(s', a') ]

Para la función Q óptima Q*(s, a):

Q*(s, a) = ∑s', r P(s', r | s, a) [ r + γ maxa' Q*(s', a') ]

Mientras V valora el estado, Q valora cada par estado-acción. Esto es especialmente útil cuando no se dispone de un modelo del entorno (model-free RL).

5. Ejemplo práctico: MDP en un juego de mesa simple

Imaginemos un minijuego con 3 estados: A (inicio), B (intermedio) y C (meta). Las acciones posibles: izquierda y derecha. Las transiciones son deterministas excepto en B, donde hay un 10% de resbalar. La recompensa: +10 al llegar a C, -1 en cualquier otro paso. La tabla siguiente muestra la función de transición simplificada:

Estado (s)Acción (a)s' (prob. 0.9)s' (prob. 0.1)Recompensa
AderechaBA-1
BderechaCA-1 (si no es C) / +10 si C
BizquierdaAB-1
C+10 (estado terminal)

Con γ=0.9, la ecuación de Bellman para el estado B (acción derecha) sería: V(B) = 0.9 * ( -1 + γ V(C) ) + 0.1 * ( -1 + γ V(A) ). Sustituyendo los valores se obtienen los valores óptimos.

6. Derivación matemática y rol en la planificación óptima

La ecuación de Bellman no es una invención arbitraria; se deriva directamente de la definición del retorno esperado y de la propiedad de Markov. Para una política determinista, partimos de:

V(s) = E[ Gt | st = s ] = E[ Rt+1 + γ Gt+1 | s ]

Usando la ley de expectativas totales y la independencia condicional del MDP, se obtiene la forma recursiva. Esta estructura permite que métodos como la iteración de valor o la iteración de política encuentren la política óptima en entornos conocidos.

Además, la ecuación de Bellman es la base de algoritmos modernos como DQN, DDPG o SAC, donde se aproxima Q(s,a) mediante redes neuronales. Sin esta ecuación, el aprendizaje por refuerzo carecería de un ancla matemática que conecta la experiencia con el control óptimo.

7. Resumen y conceptos clave

En esta lección has aprendido la columna vertebral del aprendizaje por refuerzo clásico. Recuerda los puntos esenciales:

  • Un MDP se define por estados, acciones, transiciones, recompensas y descuento.
  • El retorno descontado es la suma ponderada de recompensas futuras.
  • La ecuación de Bellman relaciona el valor de un estado con el de sus sucesores.
  • Tanto V(s) como Q(s,a) tienen sus propias ecuaciones de Bellman, siendo Q especialmente útil para algoritmos model-free.
  • La derivación matemática muestra la elegancia recursiva de estas funciones, y su papel es central en la planificación y el control óptimo.
“La ecuación de Bellman es al RL lo que las leyes de Newton son a la física: un pilar que define cómo las cosas se mueven hacia el óptimo.”

Con estos fundamentos, estarás preparado para explorar métodos de solución como la programación dinámica, la diferencia temporal y el Q-learning. En la próxima lección abordaremos la iteración de valor y política con ejemplos prácticos.

Introducción al framework de Procesos de Decisión de Markov (MDP). Definición de estados, acciones, probabilidades de transición y función de recompensa. Explicación de la ecuación de Bellman para el valor de estado y el valor de acción. Conceptos de retorno descontado y factor de descuento γ. Ejemplos de diagramas de MDP para problemas simples (ej. laberinto de 2x2, juego de mesa básico). Derivación matemática de la ecuación de Bellman y su rol en la planificación óptima.
Calificación
0 0

No hay comentarios por ahora.