Contenido del curso

- Detección de Anomalías en Salud: Comparativa Isolation Forest vs. Autoencoders

Detección de Anomalías en Salud: Isolation Forest vs. Autoencoders

Odisea Algorítmica: de la regresión al aprendizaje profundo · visión unificada

En entornos clínicos, la detección temprana de eventos anómalos —arritmias en ECG, sepsis incipiente, lecturas erráticas de presión arterial— puede salvar vidas. Dos enfoques algorítmicos destacan por su capacidad de identificar patrones raros sin necesidad de etiquetado masivo: Isolation Forest (rápido, robusto para datos tabulares) y Autoencoders (basados en error de reconstrucción, potentes en series temporales). Esta lección desglosa ambas técnicas, las compara en el dominio de salud y guía un ejercicio conceptual para simular datos de pacientes y evaluar su rendimiento.

🌲 Isolation Forest: detección rápida para tablas clínicas

Isolation Forest aísla anomalías mediante árboles aleatorios. En datos de salud tabulares (ej. conjunto de signos vitales, resultados de laboratorio), los puntos anómalos requieren menos cortes para ser separados. Es lineal en tiempo de ejecución y funciona bien con alta dimensionalidad.

Fortalezas en el dominio clínico

  • Velocidad: ideal para preprocesar flujos de datos de UCI en tiempo real (ej. cada nuevo registro de paciente).
  • Sin necesidad de etiquetas: aprende la rareza por densidad, no requiere anomalías etiquetadas.
  • Interpretabilidad: la profundidad de aislamiento puede ranking de rareza.

Debilidades

  • Dependencia de patrones tabulares: no captura dependencias temporales largas (latidos cardíacos secuenciales).
  • Sensibilidad a outliers extremos: puede tener falsos positivos si los datos normales son muy heterogéneos.
  • Tasa de falsos positivos elevada en señales con ruido fisiológico (movimiento del paciente, interferencia de sensores).

🧠 Autoencoders: error de reconstrucción como firma anómala

Los autoencoders (red neuronal que comprime y reproduce la entrada) aprenden la distribución normal de los datos. En salud, se aplican directamente a señales de ECG, EEG o series de signos vitales. Una muestra con alta pérdida de reconstrucción se considera anómala. Son especialmente potentes cuando las anomalías son sutiles y dependen del contexto temporal.

Fortalezas en señales de pacientes

  • Modelado de secuencias: con LSTM o convolucionales 1D capturan dependencias a corto y largo plazo.
  • Detección de anomalías locales: picos de error localizan el instante anómalo (p. ej., latido prematuro ventricular).
  • Menor tasa de falsos positivos si se entrena bien con datos normales representativos.

Debilidades

  • Requiere más datos y cómputo: necesita suficiente señal normal para aprender; sobreentrenamiento posible.
  • Hiperparámetros delicados: arquitectura, tamaño de ventana, umbral de error.
  • Detección más lenta en inferencia comparada con Isolation Forest, aunque puede acelerarse.
🌲 Isolation Forest

Detección por aislamiento


Ideal para: datos tabulares de laboratorio, signos vitales agregados (promedios, varianza).

Falsos positivos: medio-alto en presencia de ruido fisiológico.

Velocidad: ⚡⚡⚡⚡ (muy rápido, O(n log n) ).

Interpretación: directa (profundidad en árboles).

frecuencia cardíaca presión arterial leucocitos
🧠 Autoencoder (seq2seq)

Detección por error de reconstrucción


Ideal para: secuencias de ECG, EEG, SpO₂, series temporales continuas.

Falsos positivos: bajo si el entrenamiento es robusto (convalidación).

Velocidad: ⚡⚡ (depende de GPU/TPU, inferencia moderada).

Interpretación: requiere visualizar error residual.

ECG electrocardiograma variabilidad cardíaca

📊 Tabla comparativa de rendimiento esperado

Métrica Isolation Forest Autoencoder (LSTM)
Precisión en datos tabulares Alta (0.85–0.95) Media (0.70–0.85)
Precisión en secuencias ECG Baja (0.50–0.65) Alta (0.90–0.97)
Tasa de falsos positivos (ruido real) 18–25 % 4–10 %
Entrenamiento Rápido (segundos) Moderado (minutos a horas)
Necesidad de GPU No Recomendable

🧪 Ejercicio conceptual: simulación de datos de salud con anomalías

Escenario: Simula 1000 registros de signos vitales de pacientes (frecuencia cardíaca, SpO₂, temperatura). Introduce anomalías sintéticas: picos de frecuencia cardíaca > 140 lpm, caída de SpO₂ bajo 88%.

Evaluación de ambos métodos:

  • Entrena un Isolation Forest sobre las 3 variables numéricas (ignorando el orden temporal).
  • Entrena un autoencoder convolutional 1D con ventanas de 10 pasos (simulando serie temporal de cada paciente).
  • Compara la matriz de confusión (FP, FN, TP, TN) y el F1-score.

Pregunta guía: ¿Por qué el autoencoder detecta mejor una anomalía contextual (p. ej., bradicardia progresiva) mientras que Isolation Forest falla? Identifica la relación con la estructura de datos.

# Pseudocódigo conceptual (no ejecutable) datos_pacientes = cargar_series_ecg() # Isolation Forest modelo_if = IsolationForest(contamination=0.02) predicciones_if = modelo_if.fit_predict(datos_tabulares) # Autoencoder autoencoder = creación_modelo_conv1d() autoencoder.entrenar(datos_normales, epochs=20) error_reconstruccion = mse(autoencoder.reconstruir(secuencias)) if error_reconstruccion > umbral: anomalía

💡 Sugerencia didáctica: visualiza el error de reconstrucción por paciente. En tu implementación conceptual, los falsos positivos del Isolation Forest suelen coincidir con artefactos de movimiento (ruido no anómalo), mientras que el autoencoder los tolera si se entrenó con ese ruido de fondo.

⚕️ ¿Cuál elegir en un entorno de salud?

No hay ganador absoluto: la decisión depende del tipo de dato y la tolerancia a falsos positivos. Para alarmas clínicas en UCI, combinar ambos puede ser óptimo: filtro rápido con Isolation Forest y verificación fina con autoencoder. La lección refuerza que comprender las fortalezas y debilidades según la naturaleza de los datos (tabulares vs. secuenciales) es clave en la práctica de la Odisea Algorítmica.

Lección centrada en salud: detección de eventos anómalos en datos continuos de pacientes (ej. ECG, signos vitales). Comparación directa entre Isolation Forest (detección rápida, adecuado para datos tabulares) y autoencoders (detección por error de reconstrucción, mejor para secuencias). Se analizan las fortalezas y debilidades de cada enfoque según el tipo de datos y la tasa de falsos positivos. Ejercicio conceptual: Simulación de datos de salud con anomalías y evaluación de ambos métodos.
Calificación
0 0

No hay comentarios por ahora.