- Regresión Logística: De la Regresión a la Clasificación Binaria
Regresión Logística: de la regresión a la clasificación binaria
La regresión logística es uno de los modelos más elegantes y poderosos para clasificación binaria. Aunque su nombre incluye la palabra “regresión”, su propósito es asignar una instancia a una de dos categorías (por ejemplo: crédito aprobado vs. crédito rechazado, enfermo / sano, fraude / no fraude). En esta lección descubrirás cómo transforma una combinación lineal de características en una probabilidad entre 0 y 1, y cómo esa probabilidad se convierte en una decisión. Bienvenido a la Odisea Algorítmica.
1. De la regresión lineal a la probabilidad
Una regresión lineal ordinaria produce valores continuos sin cota (de −∞ a +∞). Pero para clasificación necesitamos una probabilidad entre 0 y 1. La regresión logística envuelve la combinación lineal dentro de una función especial: la función sigmoide (logística).
Ecuación clave:
z = β₀ + β₁·x₁ + β₂·x₂ + … + βₙ·xₙ
p = 1 / (1 + e⁻ᶻ)
donde p es la probabilidad estimada de pertenecer a la clase positiva (por ejemplo, “impago”).
- z es el logit o log-odds: combinación lineal de características.
- e es la base del logaritmo natural (~2.718).
- La sigmoide tiene forma de “S” y aplasta cualquier valor real al intervalo (0, 1).
2. Función sigmoide: la puerta a la probabilidad
La función logística σ(z) = 1 / (1 + e⁻ᶻ) tiene propiedades fascinantes:
- Asíntotas horizontales: cuando z → +∞, p → 1; cuando z → −∞, p → 0.
- En z = 0, p = 0.5 (punto de inflexión).
- Es diferenciable en todas partes, lo que facilita el entrenamiento por gradiente.
Visualización conceptual:
probabilidad
1 + ▄▄▄▄▄▄▄▄
| █ █
| █ █
0.5 --------------------█------------█----
| █ █
| ▄▄ █
0 + ▄▄▄▄▄▄▄▄▄▄▄▄▄▄
+----+----+----+----+----+----+----+----
-∞ -3 -2 -1 0 1 2 3 z
3. Umbral de decisión y regla de clase
Una vez que obtenemos p, necesitamos una regla para decidir la clase final. El umbral de decisión más común es 0.5:
- Si p ≥ 0.5 ⇒ clase 1 (ej: “crédito rechazado / alto riesgo”).
- Si p < 0.5 ⇒ clase 0 (“crédito aprobado”).
Se puede ajustar el umbral según negocio: si es costoso clasificar mal un impago, podríamos usar 0.3 para ser más cautelosos. Esto se relaciona con la matriz de confusión y la curva ROC.
4. Función de costo: entropía cruzada (log-loss)
No podemos usar el error cuadrático porque la probabilidad hace que la superficie de costo sea no convexa. En su lugar, utilizamos la entropía cruzada binaria (también llamada log-loss):
J(β) = - (1/m) * Σ [ y·log(p) + (1−y)·log(1−p) ]
Intuición:
- Si la etiqueta verdadera y = 1, el error es −log(p). Penaliza fuertemente cuando p es pequeño (cerca de 0).
- Si y = 0, el error es −log(1−p). Penaliza cuando p se acerca a 1.
- La función es convexa, lo que garantiza encontrar un mínimo global con gradiente descendente.
5. Ejemplo concreto: scoring crediticio
Imaginemos un modelo logístico de credit scoring con 3 variables. Supongamos los siguientes coeficientes (intercepto incluido):
| Variable | Coeficiente (β) | Interpretación (Odds Ratio) |
|---|---|---|
| Ingresos (miles €) | −0.42 | exp(−0.42) = 0.66 → más ingresos reducen odds de impago |
| Deuda total (miles €) | +0.85 | exp(0.85) = 2.34 → mayor deuda duplica la odds de impago |
| N° tarjetas | +0.10 | exp(0.10) = 1.11 → odds aumenta 11% por tarjeta adicional |
| Intercepto (β₀) | −1.20 | log-odds base cuando todas las variables = 0 |
Calculemos para un solicitante: ingresos = 3.5 (miles), deuda = 4.2, tarjetas = 2.
z = −1.20 + (−0.42·3.5) + (0.85·4.2) + (0.10·2)
= −1.20 − 1.47 + 3.57 + 0.20 = 1.10
p = 1 / (1 + e⁻¹·¹⁰) = 1 / (1 + 0.3329) ≈ 0.750
La probabilidad estimada de impago es 0.75. Como 0.75 > 0.5, clasificamos como “riesgo alto” (clase 1).
6. Ventajas y advertencias
- Interpretable: coeficientes en términos de log-odds y odds ratio.
- Rápido y estable: converge rápidamente con gradiente descendente.
- Base para redes neuronales: la regresión logística es como una neurona con activación sigmoide.
- Limitación: asume frontera de decisión lineal; no captura relaciones no lineales complejas sin ingeniería de características.
7. Cierre conceptual
La regresión logística es el puente natural entre la regresión lineal y la clasificación binaria. Su función de costo de entropía cruzada, la sigmoide y la interpretación de los coeficientes como log-odds la convierten en una herramienta imprescindible en cualquier caja de análisis de datos. En nuestra Odisea Algorítmica, este es el primer escalón hacia modelos más complejos como redes neuronales profundas.
Lección: Regresión Logística · Odisea Algorítmica · De la regresión al aprendizaje profundo.
No hay comentarios por ahora.
Compartir este contenido
Compartir enlace
Compartir en redes sociales
Compartir por correo electrónico
Please iniciar sesión para compartir esto Artículo por correo electrónico.