Contenido del curso

- Introducción a la Reducción de Dimensionalidad: PCA y sus Fundamentos

Introducción a la Reducción de Dimensionalidad: PCA y sus Fundamentos

Esencia de la lección: La maldición de la dimensionalidad como desafío central en datos de alta dimensión. Construcción de PCA desde la covarianza hasta autovectores, y su aplicación en riesgo financiero para sintetizar indicadores compuestos.

1. La Maldición de la Dimensionalidad

Cuando trabajamos con conjuntos de datos que contienen cientos o miles de variables (por ejemplo, series macroeconómicas, precios de activos, indicadores de mercado), el volumen del espacio de características crece exponencialmente. Este fenómeno, conocido como maldición de la dimensionalidad, provoca que los datos se vuelvan escasos y que la distancia entre puntos pierda significado. Los modelos de machine learning tienden a sobreajustarse y la interpretabilidad se degrada. La reducción de dimensionalidad busca proyectar los datos en un espacio de menor dimensión conservando la información esencial.

Consecuencias directas en finanzas: Al modelar riesgo sistémico con cientos de variables macro (PIB, inflación, índices bursátiles, volatilidad, etc.), la maldición de la dimensionalidad afecta la estimación de correlaciones y la estabilidad de los factores de riesgo.

2. Varianza, Covarianza y la Estructura de los Datos

Para entender PCA debemos recordar dos conceptos estadísticos fundamentales:

  • Varianza: mide la dispersión de una variable. Una alta varianza implica mayor información potencial.
  • Covarianza: mide cómo dos variables varían conjuntamente. En una matriz de covarianza (o correlación) se refleja la redundancia entre variables.

PCA aprovecha la descomposición de la matriz de covarianza para identificar direcciones (componentes) que maximizan la varianza de los datos proyectados. Estas direcciones son los autovectores de la matriz de covarianza, y los autovalores indican la cantidad de varianza capturada por cada componente.

# Representación conceptual (estructura de covarianza)
# Matriz S (p x p) con varianzas en diagonal y covarianzas fuera de ella
# PCA: descomposición S = V Λ V^T
# V : autovectores (pesos de las componentes)
# Λ : autovalores (varianza explicada)

3. PCA como Transformación Lineal: Componentes Principales

PCA es una transformación lineal ortogonal que redefine el sistema de coordenadas. Los componentes principales se obtienen de forma secuencial:

  1. Primer componente (PC1): dirección que maximiza la varianza de los datos proyectados.
  2. Segundo componente (PC2): dirección ortogonal a PC1 que maximiza la varianza restante.
  3. Así sucesivamente hasta p componentes (o hasta el número deseado).

Matemáticamente, cada componente principal es una combinación lineal de las variables originales: Z_j = φ_{j1}X_1 + φ_{j2}X_2 + ... + φ_{jp}X_p, donde los coeficientes φ (loadings) son los autovectores normalizados.

4. Proporción de Varianza Explicada

Los autovalores asociados a cada componente permiten calcular la proporción de varianza explicada:

  • λ_j / (suma de todos los λ) es la fracción de varianza total capturada por el componente j.
  • La suma acumulada de los primeros k componentes indica cuánta información retenemos. En finanzas, con 3-5 componentes macroeconómicos a menudo se explica >80% de la varianza.

Esta métrica guía la selección del número de componentes: buscamos un equilibrio entre reducción y pérdida de información.

ComponenteAutovalor% Varianza explicada% Acumulado
PC14.2146.8%46.8%
PC22.3526.1%72.9%
PC31.1212.4%85.3%
PC40.687.6%92.9%

Ejemplo ilustrativo: los primeros 3 componentes concentran más del 85% de la varianza total.

5. Interpretación de Loadings (Contribución de Variables Originales)

Los loadings (φ) son los coeficientes que conectan las variables originales con cada componente principal. Un loading alto en valor absoluto indica que esa variable contribuye significativamente al componente. Por ejemplo, en un componente asociado al riesgo de mercado, loadings elevados de índices bursátiles y volatilidad revelan su relevancia.

  • Ejemplo: PC1 de indicadores macro puede tener loadings altos de producción industrial, empleo y consumo → interpretado como "factor de actividad económica".
  • Cuidado: los loadings no son correlaciones, sino pesos lineales. Su signo indica dirección de la relación.

La inspección de loadings permite etiquetar los componentes y entender qué fenómenos subyacentes representan.

6. Aplicación en Riesgo Financiero: Indicadores Compuestos

En la práctica de riesgo financiero, PCA se utiliza para reducir decenas de variables macroeconómicas y de mercado (tasas de interés, spreads de crédito, índices de volatilidad, crecimiento del PIB, etc.) a unos pocos factores compuestos que resumen el estado del entorno económico. Estos factores se convierten en inputs de modelos de riesgo sistémico, asignación de activos o pruebas de estrés.

  • Ejemplo concreto: A partir de 20 series (IPC, desempleo, curva de rendimientos, VIX, etc.) se extraen 2 componentes que explican el 70% de la varianza. El primer componente (factor de "riesgo de mercado") y el segundo (factor de "ciclo económico") se usan como covariables en modelos de probabilidad de impago.
  • Ventaja: Se reduce el ruido, se mitiga la multicolinealidad y se facilita la interpretación de los impulsores de riesgo.

Punto clave: PCA no solo reduce dimensión, sino que revela estructura latente en los datos financieros. La combinación de varianza explicada y análisis de loadings permite construir indicadores compuestos robustos y accionables para la toma de decisiones.

7. Síntesis Conceptual

Hemos recorrido desde la maldición de la dimensionalidad hasta la aplicación práctica en finanzas. PCA se erige como una herramienta fundamental del analista cuantitativo: fundamentada en álgebra lineal (autovalores/autovectores), transforma un conjunto de variables correlacionadas en componentes ortogonales interpretables. Dominar estos conceptos es el primer paso para técnicas más avanzadas como t-SNE, UMAP o autoencoders, que exploraremos más adelante en la Odisea Algorítmica.

Lección parte del curso "Odisea Algorítmica: De la Regresión al Aprendizaje Profundo". Siguiente tema: Implementación práctica de PCA con Python y estudio de caso de riesgo de crédito.

El problema de la maldición de la dimensionalidad. Conceptos de varianza, covarianza, autovalores y autovectores. PCA como transformación lineal: cálculo de componentes principales, proporción de varianza explicada. Interpretación de loadings (contribución de variables originales). Aplicación en riesgo financiero: reducción de variables macroeconómicas y de mercado para construir indicadores compuestos de riesgo.
Calificación
0 0

No hay comentarios por ahora.