- Fundamentos del Aprendizaje por Refuerzo: MDP, Recompensas y Ecuación de Bellman
Fundamentos del Aprendizaje por Refuerzo: MDP, Recompensas y Ecuación de Bellman
El Aprendizaje por Refuerzo (RL) es uno de los paradigmas más fascinantes dentro de la inteligencia artificial, donde un agente aprende a tomar decisiones secuenciales mediante la interacción con un entorno. En el corazón de esta disciplina se encuentra el marco de los Procesos de Decisión de Markov (MDP), una formalización matemática que modela problemas de decisión en los que los resultados son parcialmente aleatorios y están bajo el control de un decisor. Esta lección te guiará desde los componentes básicos del MDP hasta la ecuación de Bellman, pilar de la planificación óptima.
1. El framework MDP: Estados, Acciones y Transiciones
Un Proceso de Decisión de Markov (MDP) es una tupla de cinco elementos: estados, acciones, probabilidades de transición, función de recompensa y factor de descuento. Formalmente: (S, A, P, R, γ). Vamos a desglosar cada componente:
- Estados (S): conjunto finito o infinito de situaciones en las que se puede encontrar el agente. Por ejemplo, en un laberinto, cada celda es un estado.
- Acciones (A): conjunto de movimientos que el agente puede ejecutar. Puede depender del estado:
A(s). - Probabilidad de transición (P): función
P(s' | s, a)que indica la probabilidad de llegar al estados'desde el estadostras ejecutar la accióna. - Función de recompensa (R):
R(s, a, s')o simplementeR(s), devuelve un valor numérico (la recompensa inmediata) que recibe el agente al realizar una transición. - Factor de descuento (γ): coeficiente entre 0 y 1 que pondera la importancia de las recompensas futuras.
La propiedad de Markov establece que la probabilidad de transición solo depende del estado actual y de la acción, no de la historia pasada: P(s_{t+1} | s_t, a_t). Esto simplifica enormemente el modelado.
(S1) ←→ (S2)
(S3) ←→ (S4) [destino +1]
El agente puede moverse en cuatro direcciones; si choca contra un muro, se queda en el mismo estado.
2. Retorno descontado y factor de descuento γ
El objetivo del agente es maximizar la suma acumulada de recompensas a lo largo del tiempo, pero las recompensas inmediatas suelen ser más valiosas que las futuras. Por ello se define el retorno descontado G_t como:
El factor de descuento γ ∈ [0,1] cumple varias funciones:
- γ cercano a 0: el agente es “miope”, prioriza recompensas inmediatas.
- γ cercano a 1: el agente es “visionario”, valora casi por igual las recompensas futuras.
- γ = 0: solo importa la recompensa inmediata.
- γ = 1: todas las recompensas tienen el mismo peso (puede divergir en entornos infinitos).
Matemáticamente, el descuento asegura que la suma sea finita en horizontes infinitos y permite formular algoritmos estables.
3. Ecuación de Bellman para el valor de estado
La función de valor de estado V(s) estima el retorno total esperado desde el estado s siguiendo una política π. La ecuación de Bellman para V(s) expresa una relación recursiva fundamental:
En el caso de la función de valor óptima V*(s), se toma el máximo sobre las acciones:
Esta ecuación es la base de la programación dinámica y de algoritmos como la iteración de valor. Cada estado actual se define en términos del valor del siguiente estado, formando un sistema de ecuaciones que puede resolverse si se conoce la dinámica del MDP.
4. Valor de acción (Q) y su ecuación de Bellman
La función de valor de acción Q(s, a) representa el retorno esperado si el agente ejecuta la acción a en el estado s y luego sigue la política π. Su ecuación de Bellman es:
Para la función Q óptima Q*(s, a):
Mientras V valora el estado, Q valora cada par estado-acción. Esto es especialmente útil cuando no se dispone de un modelo del entorno (model-free RL).
5. Ejemplo práctico: MDP en un juego de mesa simple
Imaginemos un minijuego con 3 estados: A (inicio), B (intermedio) y C (meta). Las acciones posibles: izquierda y derecha. Las transiciones son deterministas excepto en B, donde hay un 10% de resbalar. La recompensa: +10 al llegar a C, -1 en cualquier otro paso. La tabla siguiente muestra la función de transición simplificada:
| Estado (s) | Acción (a) | s' (prob. 0.9) | s' (prob. 0.1) | Recompensa |
|---|---|---|---|---|
| A | derecha | B | A | -1 |
| B | derecha | C | A | -1 (si no es C) / +10 si C |
| B | izquierda | A | B | -1 |
| C | — | — | — | +10 (estado terminal) |
Con γ=0.9, la ecuación de Bellman para el estado B (acción derecha) sería: V(B) = 0.9 * ( -1 + γ V(C) ) + 0.1 * ( -1 + γ V(A) ). Sustituyendo los valores se obtienen los valores óptimos.
6. Derivación matemática y rol en la planificación óptima
La ecuación de Bellman no es una invención arbitraria; se deriva directamente de la definición del retorno esperado y de la propiedad de Markov. Para una política determinista, partimos de:
V(s) = E[ Gt | st = s ] = E[ Rt+1 + γ Gt+1 | s ]
Usando la ley de expectativas totales y la independencia condicional del MDP, se obtiene la forma recursiva. Esta estructura permite que métodos como la iteración de valor o la iteración de política encuentren la política óptima en entornos conocidos.
Además, la ecuación de Bellman es la base de algoritmos modernos como DQN, DDPG o SAC, donde se aproxima Q(s,a) mediante redes neuronales. Sin esta ecuación, el aprendizaje por refuerzo carecería de un ancla matemática que conecta la experiencia con el control óptimo.
7. Resumen y conceptos clave
En esta lección has aprendido la columna vertebral del aprendizaje por refuerzo clásico. Recuerda los puntos esenciales:
- Un MDP se define por estados, acciones, transiciones, recompensas y descuento.
- El retorno descontado es la suma ponderada de recompensas futuras.
- La ecuación de Bellman relaciona el valor de un estado con el de sus sucesores.
- Tanto
V(s)comoQ(s,a)tienen sus propias ecuaciones de Bellman, siendoQespecialmente útil para algoritmos model-free. - La derivación matemática muestra la elegancia recursiva de estas funciones, y su papel es central en la planificación y el control óptimo.
“La ecuación de Bellman es al RL lo que las leyes de Newton son a la física: un pilar que define cómo las cosas se mueven hacia el óptimo.”
Con estos fundamentos, estarás preparado para explorar métodos de solución como la programación dinámica, la diferencia temporal y el Q-learning. En la próxima lección abordaremos la iteración de valor y política con ejemplos prácticos.
No hay comentarios por ahora.
Compartir este contenido
Compartir enlace
Compartir en redes sociales
Compartir por correo electrónico
Please iniciar sesión para compartir esto Artículo por correo electrónico.