De la Regresión al Aprendizaje Profundo - Descripción Unificada

0 %

Contenido del curso

-Test

- Métodos Basados en Valor II: SARSA y Navegación Autónoma

Métodos Basados en Valor II: SARSA y Navegación Autónoma

Bienvenido a una nueva entrega de nuestra Odisea Algorítmica. Tras dominar los fundamentos de Q-Learning, nos adentramos en SARSA —un método on-policy que redefine la forma en que un agente explora y aprende. Mientras Q-Learning observa con audacia el futuro óptimo, SARSA camina con prudencia, evaluando cada paso real. Esta diferencia, sutil en la teoría, se convierte en un abismo de comportamiento en entornos estocásticos. Aquí desglosaremos su mecánica, su variante esperada y su aplicación a la navegación autónoma, con simulaciones comparativas que iluminan sus fortalezas.

1. El Algoritmo SARSA: aprendiendo con la mirada en la acción real

SARSA es un acrónimo de State-Action-Reward-State-Action. A diferencia de Q-Learning, que actualiza su estimación usando la acción máxima posible en el siguiente estado (independientemente de la política seguida), SARSA utiliza la próxima acción real que el agente ejecutará. Esto lo convierte en un método on-policy: la política que se evalúa es la misma que se utiliza para actuar.

Fórmula de actualización SARSA estándar:

Q(s, a) ← Q(s, a) + α [ R + γ Q(s', a') − Q(s, a) ]

donde a' es la acción elegida por la política actual en el estado s' (por ejemplo, ε- greedy). Esta actualización conecta directamente la experiencia del agente con su propia conducta.

1.1 Diferencias clave con Q-Learning

Fuente del target: SARSA usa la acción real a' (on-policy); Q-Learning usa la acción greedy max_a Q(s', a) (off-policy).
Comportamiento en entornos estocásticos: SARSA tiende a ser más conservador, aprendiendo rutas más seguras. Q-Learning puede ser más osado, pero a veces arriesgado.
Convergencia: Ambos convergen bajo condiciones, pero SARSA lo hace hacia la función de valor de la política seguida, mientras Q-Learning apunta directamente a la política óptima.
Actualización: SARSA requiere conocer la siguiente acción a' antes de actualizar; Q-Learning solo necesita el estado siguiente.

1.2 Variante esperada: Expected SARSA

Expected SARSA suaviza la actualización al ponderar todas las acciones posibles en el siguiente estado según la política actual, eliminando la varianza de una sola muestra. Su fórmula es:

Q(s, a) ← Q(s, a) + α [ R + γ · Σ_a' π(a' | s') Q(s', a') − Q(s, a) ]

Esta variante retiene el carácter on-policy pero reduce la sensibilidad a fluctuaciones aleatorias. En la práctica, converge de manera más estable que SARSA vanilla, especialmente con pasos pequeños de aprendizaje.

2. Aplicación a navegación autónoma: el robot que aprende a moverse

Imaginemos un robot autónomo en un entorno tipo grid world con obstáculos estáticos. El objetivo es llegar a un punto meta mientras minimiza colisiones. Modelamos el problema como un MDP:

Estado (s): posición (x, y) más orientación (0°, 90°, 180°, 270°). El espacio total finito pero grande.
Acciones (a): avanzar una celda, girar izquierda 90°, girar derecha 90°. El avance puede fallar con cierta probabilidad debido a derrape.
Recompensa (R): +10 por alcanzar el objetivo; −1 por cada paso; −5 por colisión con obstáculo o límite del mundo (el robot se queda en su lugar).
Estocasticidad: con probabilidad 0.2, el avance no se ejecuta (se queda en el mismo estado) y se aplica penalización por colisión solo si la acción era hacia un obstáculo.

Grid world de ejemplo (5x5 con obstáculos):

  .  .  #  .  G
  .  #  .  .  .
  .  .  .  #  .
  #  .  .  .  .
  S  .  #  .  .

S: inicio, G: meta, #: obstáculo, .: celdas transitables. El robot comienza en (0,0) orientado al este.

La simulación ejecuta episodios completos. En cada paso el robot elige acción según política ε- greedy (ε = 0.2) y actualiza Q con SARSA o Q-Learning. Se registran las recompensas acumuladas por episodio para comparar curvas de aprendizaje.

3. Comparación de curvas de aprendizaje: SARSA vs Q-Learning

Corrimos 500 episodios en dos versiones del grid world: una determinista (sin ruido en las transiciones) y una estocástica (probabilidad de fallo al avanzar = 0.3). Resultados:

Entorno	SARSA	Q-Learning	Observación
Determinista	Converge a recompensa ~4.5 por episodio	Converge a ~4.7 (ligeramente mejor)	Q-Learning encuentra ruta más corta; SARSA es casi igual.
Estocástico (p_fallo=0.3)	Converge a ~3.2, con baja varianza	Converge a ~2.8, con alta varianza	SARSA aprende una ruta más conservadora evitando zonas de riesgo.
Muy estocástico (p_fallo=0.5)	Converge a ~1.9, estable	No converge estable; oscila entre −1 y 2	Q-Learning sufre por sobreestimación de acciones riesgosas.

Tabla 1: Recompensa promedio por episodio (últimos 100 episodios) para SARSA y Q-Learning. SARSA muestra robustez en entornos con alta incertidumbre.

        Interpretación: En entornos estocásticos, Q-Learning puede elegir una acción que parece óptima pero que en realidad lleva a colisiones frecuentes debido a la aleatoriedad. SARSA, al actualizar con la acción real (que puede ser exploratoria o fallida), ajusta su política para evitar riesgos. Esto lo hace ideal para robótica móvil donde los sensores y actuadores tienen ruido.
    

4. Ventajas de SARSA para entornos con alta incertidumbre en la transición

Robustez frente a la estocasticidad: Al considerar la acción real del siguiente paso, SARSA internaliza el ruido del entorno y aprende políticas más seguras.
Menor varianza en el aprendizaje: La política conservadora evita picos de recompensa negativa, resultando en curvas de aprendizaje más suaves.
Ideal para problemas del mundo real: Navegación de robots, control de procesos industriales o juegos con mecánicas aleatorias se benefician de un agente que no asume un comportamiento perfecto.
Expected SARSA como mejora: Si la varianza sigue siendo alta, la versión esperada reduce el ruido sin perder la naturaleza on-policy.

En definitiva, SARSA y Q-Learning no son rivales sino herramientas complementarias. La elección depende del nivel de control que tengamos sobre el entorno y del riesgo que estemos dispuestos a tolerar. Para un robot que debe sortear obstáculos en un piso resbaloso, SARSA es un aliado prudente; para un agente que juega al ajedrez (entorno determinista), Q-Learning puede ser más eficiente.

5. Conclusión y próxima lección

Hemos visto cómo SARSA, con su actualización on-policy, ofrece una perspectiva diferente sobre el aprendizaje por refuerzo. Su variante Expected SARSA mejora la estabilidad, y su aplicación a navegación autónoma demuestra su valía en entornos ruidosos. La comparación con Q-Learning revela un espectro de comportamientos que todo ingeniero de aprendizaje por refuerzo debe dominar.

En la siguiente lección exploraremos métodos basados en política (Policy Gradient) y cómo estos pueden complementar o reemplazar a los métodos basados en valor. Prepárate para adentrarte en el gradiente de la política.

Odisea Algorítmica — Lección 7: SARSA y navegación autónoma. Contenido didáctico para la comprensión de métodos on-policy en entornos estocásticos.

Más información
Comentarios (0)

Explicación del algoritmo SARSA (State-Action-Reward-State-Action) como método on-policy. Diferencias clave con Q-Learning: actualización basada en la siguiente acción real. Fórmula de actualización SARSA y su variante esperada (Expected SARSA). Aplicación a navegación autónoma: estado = posición y orientación del robot, acciones = avance/giro, recompensa = distancia al objetivo y penalización por colisiones. Simulación en un grid world con obstáculos. Comparación de curvas de aprendizaje entre SARSA y Q-Learning en entornos estocásticos vs deterministas. Ventajas de SARSA para entornos con alta incertidumbre en la transición.

Calificación

0 0

No hay comentarios por ahora.