Contenido del curso

- MDP: Procesos de Decisión de Markov para Planificación en Salud

MDP: Procesos de Decisión de Markov para Planificación en Salud

1. Fundamentos de Markov Decision Processes

Un Proceso de Decisión de Markov (MDP) es un modelo matemático para la toma de decisiones secuenciales en entornos donde los resultados son parcialmente aleatorios y están bajo el control de un agente. Formalmente, un MDP se define por la tupla (S, A, P, R, γ):

  • Estados (S): conjunto finito de situaciones en las que puede encontrarse el sistema. En salud: estable, crítico, recuperación, etc.
  • Acciones (A): conjunto de decisiones que el agente puede tomar. Ej: administrar dosis baja, cirugía, observar.
  • Recompensas (R): señal inmediata que recibe el agente al ejecutar una acción en un estado. Refleja el objetivo (ej: calidad de vida, reducción de síntomas).
  • Factor de descuento (γ): valor en [0,1) que pondera recompensas futuras. Un γ cercano a 1 da importancia a largo plazo.
  • Política óptima (π*): estrategia que maximiza la suma esperada de recompensas descontadas a lo largo del tiempo.

La propiedad fundamental de un MDP es la marca de Markov: la probabilidad de transición al siguiente estado depende únicamente del estado actual y la acción tomada, no de la historia previa. Esto permite modelar problemas de planificación con incertidumbre controlada.

2. Ecuación de Bellman y optimalidad

La ecuación de Bellman es el pilar analítico de los MDP. Define el valor óptimo V*(s) de un estado como la recompensa inmediata más el valor descontado del mejor estado futuro posible:

V*(s) = maxa ∈ A { R(s,a) + γ Σs' P(s'|s,a) · V*(s') }

Intuitivamente, la ecuación evalúa cada acción posible en el estado actual, estima la utilidad futura y elige la que maximiza el retorno esperado. La resolución de esta ecuación proporciona la política óptima. Existen dos algoritmos clásicos para hallarla:

  • Iteración de valor: actualiza repetidamente V(s) usando la ecuación de Bellman hasta convergencia. Simple, pero puede requerir muchas iteraciones.
  • Iteración de política: comienza con una política arbitraria, evalúa sus valores y luego mejora la política de forma greedy. Generalmente converge en menos pasos, sobre todo en espacios grandes.

Ambos algoritmos son fundamentales en planificación automatizada y refuerzan la noción de que un MDP es un modelo computacionalmente tratable con herramientas de programación dinámica.

3. Planificación de tratamientos médicos personalizados

La aplicación más prometedora de los MDP en salud es la optimización secuencial de terapias. Se modela el estado del paciente como variable (ej. nivel de dolor, progresión tumoral, presión arterial) y las acciones como posibles intervenciones: fármacos, dosis, radioterapia, etc. La recompensa se define en términos de eficacia terapéutica y efectos secundarios. Ejemplos concretos:

  • Dosificación óptima de anticoagulantes: donde el estado es el INR y la acción es la dosis de warfarina; la recompensa equilibra riesgo de trombosis y sangrado.
  • Secuencia de terapias oncológicas: elegir entre quimioterapia, inmunoterapia o cirugía en función de la respuesta tumoral y toxicidad acumulada.
  • Manejo de enfermedades crónicas: diabetes tipo 1, donde se ajustan dosis de insulina según glucosa y actividad.

La personalización emerge naturalmente: cada paciente tiene su propia matriz de transición (basada en su historial) y su función de recompensa (preferencias de calidad de vida). El MDP permite calcular una política óptima adaptada al individuo.

4. Extensiones a logística y tecnología

Más allá de la salud, los MDP se aplican en dominios con incertidumbre estocástica y decisiones secuenciales:

  • Logística y gestión de inventarios: un almacén debe decidir cuánto reabastecer cada semana. El estado es el nivel de stock, la acción es la cantidad de pedido, y la demanda es aleatoria. La recompensa se asocia a costos de almacenamiento y penalización por desabastecimiento.
  • Tecnología y recomendaciones secuenciales: sistemas como Netflix, Spotify o Google News modelan la interacción usuario-sistema como un MDP. El estado es el perfil de preferencias, la acción es el contenido recomendado, y la recompensa es el tiempo de visualización o clic. La política óptima maximiza el engagement a largo plazo.

En estos contextos, se suele recurrir a métodos de aprendizaje por refuerzo (reforzamiento) cuando el modelo de transición no es conocido de antemano, pero la estructura MDP sigue siendo el marco conceptual.

5. Ejercicio conceptual: MDP para un paciente con dos estados de salud

Diseñe un MDP simple para un paciente que puede estar en dos estados: Saludable (S0) y Enfermo (S1). Las acciones disponibles son:

  • A0: No tratar (observar)
  • A1: Administrar tratamiento (dosis estándar)

Las transiciones y recompensas se definen en la siguiente tabla (valores hipotéticos). La recompensa se interpreta como ganancia en calidad de vida (mayor es mejor). Utilice un factor de descuento γ = 0.9.

Estado actual Acción Prob. S0 siguiente Prob. S1 siguiente Recompensa inmediata
S0 No tratar 0.9 0.1 +5
S0 Tratar 0.95 0.05 +2 (coste del tratamiento)
S1 No tratar 0.2 0.8 -3 (malestar)
S1 Tratar 0.7 0.3 +1 (mejora parcial)

Pregunta guía: ¿Cuál es la política óptima para este paciente? (Puede calcularla manualmente usando iteración de valor o discutir el equilibrio entre recompensa y riesgo).

Pista: Evalúe las ecuaciones de Bellman para cada estado. Por ejemplo, para S0: si trata obtiene 2 + 0.9(0.95*V(S0)+0.05*V(S1)); si no trata obtiene 5 + 0.9(0.9*V(S0)+0.1*V(S1)). Compare valores para decidir la acción óptima.

Reflexión clínica: en este modelo simplificado, tratar siempre mejora la probabilidad de estar saludable, pero tiene un coste inmediato. La política óptima dependerá de cómo el médico pondere bienestar a corto y largo plazo. En la práctica, se añadirían más estados (gravedad) y costes variables.

6. Síntesis y lectura complementaria

Los MDP ofrecen un lenguaje unificado para la toma de decisiones secuenciales bajo incertidumbre. Su aplicación en salud permite diseñar protocolos adaptativos, mientras que en logística y tecnología optimizan recursos y experiencia de usuario. La ecuación de Bellman y los algoritmos de iteración de valor/política son herramientas accesibles que todo profesional del análisis de datos debería conocer.

Nota: para una implementación computacional, se recomienda comenzar con la librería pymdptoolbox (Python) o MDPtoolbox en R. Los ejemplos presentados pueden escalarse a modelos con decenas de estados y acciones.

Fundamentos de Markov Decision Processes: estados, acciones, recompensas, factor de descuento y política óptima. Explicación de la ecuación de Bellman y algoritmos de solución (iteración de valor y política). Aplicación principal en planificación de tratamientos médicos personalizados (ej. determinar dosis óptimas de fármacos o secuencia de terapias). Otros usos en logística (gestión de inventarios con demanda estocástica) y tecnología (optimización de recomendaciones secuenciales). Ejercicio conceptual: Diseño de un MDP simple para un paciente con dos estados de salud y dos acciones de tratamiento.
Calificación
0 0

No hay comentarios por ahora.