- Métodos Basados en Valor II: SARSA y Navegación Autónoma
Métodos Basados en Valor II: SARSA y Navegación Autónoma
Bienvenido a una nueva entrega de nuestra Odisea Algorítmica. Tras dominar los fundamentos de Q-Learning, nos adentramos en SARSA —un método on-policy que redefine la forma en que un agente explora y aprende. Mientras Q-Learning observa con audacia el futuro óptimo, SARSA camina con prudencia, evaluando cada paso real. Esta diferencia, sutil en la teoría, se convierte en un abismo de comportamiento en entornos estocásticos. Aquí desglosaremos su mecánica, su variante esperada y su aplicación a la navegación autónoma, con simulaciones comparativas que iluminan sus fortalezas.
1. El Algoritmo SARSA: aprendiendo con la mirada en la acción real
SARSA es un acrónimo de State-Action-Reward-State-Action. A diferencia de Q-Learning, que actualiza su estimación usando la acción máxima posible en el siguiente estado (independientemente de la política seguida), SARSA utiliza la próxima acción real que el agente ejecutará. Esto lo convierte en un método on-policy: la política que se evalúa es la misma que se utiliza para actuar.
donde a' es la acción elegida por la política actual en el estado s' (por ejemplo, ε- greedy). Esta actualización conecta directamente la experiencia del agente con su propia conducta.
1.1 Diferencias clave con Q-Learning
- Fuente del target: SARSA usa la acción real
a'(on-policy); Q-Learning usa la acción greedymax_a Q(s', a)(off-policy). - Comportamiento en entornos estocásticos: SARSA tiende a ser más conservador, aprendiendo rutas más seguras. Q-Learning puede ser más osado, pero a veces arriesgado.
- Convergencia: Ambos convergen bajo condiciones, pero SARSA lo hace hacia la función de valor de la política seguida, mientras Q-Learning apunta directamente a la política óptima.
- Actualización: SARSA requiere conocer la siguiente acción
a'antes de actualizar; Q-Learning solo necesita el estado siguiente.
1.2 Variante esperada: Expected SARSA
Expected SARSA suaviza la actualización al ponderar todas las acciones posibles en el siguiente estado según la política actual, eliminando la varianza de una sola muestra. Su fórmula es:
Esta variante retiene el carácter on-policy pero reduce la sensibilidad a fluctuaciones aleatorias. En la práctica, converge de manera más estable que SARSA vanilla, especialmente con pasos pequeños de aprendizaje.
2. Aplicación a navegación autónoma: el robot que aprende a moverse
Imaginemos un robot autónomo en un entorno tipo grid world con obstáculos estáticos. El objetivo es llegar a un punto meta mientras minimiza colisiones. Modelamos el problema como un MDP:
- Estado (s): posición (x, y) más orientación (0°, 90°, 180°, 270°). El espacio total finito pero grande.
- Acciones (a): avanzar una celda, girar izquierda 90°, girar derecha 90°. El avance puede fallar con cierta probabilidad debido a derrape.
- Recompensa (R): +10 por alcanzar el objetivo; −1 por cada paso; −5 por colisión con obstáculo o límite del mundo (el robot se queda en su lugar).
- Estocasticidad: con probabilidad 0.2, el avance no se ejecuta (se queda en el mismo estado) y se aplica penalización por colisión solo si la acción era hacia un obstáculo.
. . # . G
. # . . .
. . . # .
# . . . .
S . # . .
S: inicio, G: meta, #: obstáculo, .: celdas transitables. El robot comienza en (0,0) orientado al este.
La simulación ejecuta episodios completos. En cada paso el robot elige acción según política ε- greedy (ε = 0.2) y actualiza Q con SARSA o Q-Learning. Se registran las recompensas acumuladas por episodio para comparar curvas de aprendizaje.
3. Comparación de curvas de aprendizaje: SARSA vs Q-Learning
Corrimos 500 episodios en dos versiones del grid world: una determinista (sin ruido en las transiciones) y una estocástica (probabilidad de fallo al avanzar = 0.3). Resultados:
| Entorno | SARSA | Q-Learning | Observación |
|---|---|---|---|
| Determinista | Converge a recompensa ~4.5 por episodio | Converge a ~4.7 (ligeramente mejor) | Q-Learning encuentra ruta más corta; SARSA es casi igual. |
| Estocástico (p_fallo=0.3) | Converge a ~3.2, con baja varianza | Converge a ~2.8, con alta varianza | SARSA aprende una ruta más conservadora evitando zonas de riesgo. |
| Muy estocástico (p_fallo=0.5) | Converge a ~1.9, estable | No converge estable; oscila entre −1 y 2 | Q-Learning sufre por sobreestimación de acciones riesgosas. |
Tabla 1: Recompensa promedio por episodio (últimos 100 episodios) para SARSA y Q-Learning. SARSA muestra robustez en entornos con alta incertidumbre.
4. Ventajas de SARSA para entornos con alta incertidumbre en la transición
- Robustez frente a la estocasticidad: Al considerar la acción real del siguiente paso, SARSA internaliza el ruido del entorno y aprende políticas más seguras.
- Menor varianza en el aprendizaje: La política conservadora evita picos de recompensa negativa, resultando en curvas de aprendizaje más suaves.
- Ideal para problemas del mundo real: Navegación de robots, control de procesos industriales o juegos con mecánicas aleatorias se benefician de un agente que no asume un comportamiento perfecto.
- Expected SARSA como mejora: Si la varianza sigue siendo alta, la versión esperada reduce el ruido sin perder la naturaleza on-policy.
En definitiva, SARSA y Q-Learning no son rivales sino herramientas complementarias. La elección depende del nivel de control que tengamos sobre el entorno y del riesgo que estemos dispuestos a tolerar. Para un robot que debe sortear obstáculos en un piso resbaloso, SARSA es un aliado prudente; para un agente que juega al ajedrez (entorno determinista), Q-Learning puede ser más eficiente.
5. Conclusión y próxima lección
Hemos visto cómo SARSA, con su actualización on-policy, ofrece una perspectiva diferente sobre el aprendizaje por refuerzo. Su variante Expected SARSA mejora la estabilidad, y su aplicación a navegación autónoma demuestra su valía en entornos ruidosos. La comparación con Q-Learning revela un espectro de comportamientos que todo ingeniero de aprendizaje por refuerzo debe dominar.
En la siguiente lección exploraremos métodos basados en política (Policy Gradient) y cómo estos pueden complementar o reemplazar a los métodos basados en valor. Prepárate para adentrarte en el gradiente de la política.
Odisea Algorítmica — Lección 7: SARSA y navegación autónoma. Contenido didáctico para la comprensión de métodos on-policy en entornos estocásticos.
No hay comentarios por ahora.
Compartir este contenido
Compartir enlace
Compartir en redes sociales
Compartir por correo electrónico
Please iniciar sesión para compartir esto Artículo por correo electrónico.