Contenido del curso

- Regresión Logística: De la Regresión a la Clasificación Binaria

Regresión Logística: de la regresión a la clasificación binaria

La regresión logística es uno de los modelos más elegantes y poderosos para clasificación binaria. Aunque su nombre incluye la palabra “regresión”, su propósito es asignar una instancia a una de dos categorías (por ejemplo: crédito aprobado vs. crédito rechazado, enfermo / sano, fraude / no fraude). En esta lección descubrirás cómo transforma una combinación lineal de características en una probabilidad entre 0 y 1, y cómo esa probabilidad se convierte en una decisión. Bienvenido a la Odisea Algorítmica.

Escenario guía: Scoring crediticio. Queremos predecir si un solicitante de crédito caerá en impago (clase 1) o pagará puntualmente (clase 0). Las características son: ingresos mensuales, deuda total, número de tarjetas y años de historial.

1. De la regresión lineal a la probabilidad

Una regresión lineal ordinaria produce valores continuos sin cota (de −∞ a +∞). Pero para clasificación necesitamos una probabilidad entre 0 y 1. La regresión logística envuelve la combinación lineal dentro de una función especial: la función sigmoide (logística).

Ecuación clave:

z = β₀ + β₁·x₁ + β₂·x₂ + … + βₙ·xₙ
p = 1 / (1 + e⁻ᶻ)

donde p es la probabilidad estimada de pertenecer a la clase positiva (por ejemplo, “impago”).

  • z es el logit o log-odds: combinación lineal de características.
  • e es la base del logaritmo natural (~2.718).
  • La sigmoide tiene forma de “S” y aplasta cualquier valor real al intervalo (0, 1).

2. Función sigmoide: la puerta a la probabilidad

La función logística σ(z) = 1 / (1 + e⁻ᶻ) tiene propiedades fascinantes:

  • Asíntotas horizontales: cuando z → +∞, p → 1; cuando z → −∞, p → 0.
  • En z = 0, p = 0.5 (punto de inflexión).
  • Es diferenciable en todas partes, lo que facilita el entrenamiento por gradiente.

Visualización conceptual:

  probabilidad
  1 +                          ▄▄▄▄▄▄▄▄
    |                        █        █
    |                      █          █
  0.5 --------------------█------------█----
    |                   █              █
    |                ▄▄                █
  0 + ▄▄▄▄▄▄▄▄▄▄▄▄▄▄
    +----+----+----+----+----+----+----+----
    -∞   -3   -2   -1    0    1    2    3   z

3. Umbral de decisión y regla de clase

Una vez que obtenemos p, necesitamos una regla para decidir la clase final. El umbral de decisión más común es 0.5:

  • Si p ≥ 0.5 ⇒ clase 1 (ej: “crédito rechazado / alto riesgo”).
  • Si p < 0.5 ⇒ clase 0 (“crédito aprobado”).

Se puede ajustar el umbral según negocio: si es costoso clasificar mal un impago, podríamos usar 0.3 para ser más cautelosos. Esto se relaciona con la matriz de confusión y la curva ROC.

4. Función de costo: entropía cruzada (log-loss)

No podemos usar el error cuadrático porque la probabilidad hace que la superficie de costo sea no convexa. En su lugar, utilizamos la entropía cruzada binaria (también llamada log-loss):

J(β) = - (1/m) * Σ [ y·log(p) + (1−y)·log(1−p) ]

Intuición:

  • Si la etiqueta verdadera y = 1, el error es −log(p). Penaliza fuertemente cuando p es pequeño (cerca de 0).
  • Si y = 0, el error es −log(1−p). Penaliza cuando p se acerca a 1.
  • La función es convexa, lo que garantiza encontrar un mínimo global con gradiente descendente.
📌 Interpretación de los coeficientes (log-odds): Cada coeficiente βⱼ representa el cambio en los log-odds (logaritmo de odds) por cada unidad de cambio en la variable xⱼ. Si exponenciamos exp(βⱼ) obtenemos el Odds Ratio, que indica cuánto se multiplica la odds de la clase positiva al aumentar en 1 la variable. Por ejemplo: β₁ = 0.25 asociado a ingresos significa que, por cada unidad adicional de ingreso, la odds de impago se multiplica por e⁰·²⁵ ≈ 1.28.

5. Ejemplo concreto: scoring crediticio

Imaginemos un modelo logístico de credit scoring con 3 variables. Supongamos los siguientes coeficientes (intercepto incluido):

Variable Coeficiente (β) Interpretación (Odds Ratio)
Ingresos (miles €) −0.42 exp(−0.42) = 0.66 → más ingresos reducen odds de impago
Deuda total (miles €) +0.85 exp(0.85) = 2.34 → mayor deuda duplica la odds de impago
N° tarjetas +0.10 exp(0.10) = 1.11 → odds aumenta 11% por tarjeta adicional
Intercepto (β₀) −1.20 log-odds base cuando todas las variables = 0

Calculemos para un solicitante: ingresos = 3.5 (miles), deuda = 4.2, tarjetas = 2.

z = −1.20 + (−0.42·3.5) + (0.85·4.2) + (0.10·2)
   = −1.20 − 1.47 + 3.57 + 0.20 = 1.10

p = 1 / (1 + e⁻¹·¹⁰) = 1 / (1 + 0.3329) ≈ 0.750

La probabilidad estimada de impago es 0.75. Como 0.75 > 0.5, clasificamos como “riesgo alto” (clase 1).

6. Ventajas y advertencias

  • Interpretable: coeficientes en términos de log-odds y odds ratio.
  • Rápido y estable: converge rápidamente con gradiente descendente.
  • Base para redes neuronales: la regresión logística es como una neurona con activación sigmoide.
  • Limitación: asume frontera de decisión lineal; no captura relaciones no lineales complejas sin ingeniería de características.

7. Cierre conceptual

La regresión logística es el puente natural entre la regresión lineal y la clasificación binaria. Su función de costo de entropía cruzada, la sigmoide y la interpretación de los coeficientes como log-odds la convierten en una herramienta imprescindible en cualquier caja de análisis de datos. En nuestra Odisea Algorítmica, este es el primer escalón hacia modelos más complejos como redes neuronales profundas.


Lección: Regresión Logística · Odisea Algorítmica · De la regresión al aprendizaje profundo.

Se presenta la regresión logística como modelo de clasificación binaria, que estima la probabilidad de que una instancia pertenezca a una clase (p.ej., 1 = crédito aprobado, 0 = crédito rechazado). Se explica la función sigmoide (logística) que transforma una combinación lineal de características en un valor entre 0 y 1: p = 1/(1 + e^(-z)). Se define la función de costo de entropía cruzada (log-loss) y se introduce el concepto de umbral de decisión (normalmente 0.5) para convertir la probabilidad en una clase. Se utiliza el ejemplo de scoring crediticio, donde características como ingresos y deuda determinan la probabilidad de impago. Se destaca la interpretación de los coeficientes como log-odds.
Calificación
0 0

No hay comentarios por ahora.