- Introducción a los Modelos Supervisados: Regresión Lineal y Regresión Logística
📘 Introducción a los Modelos Supervisados: Regresión Lineal y Regresión Logística
Aprendizaje supervisado es la rama del machine learning donde entrenamos un modelo con un conjunto de datos etiquetados. Cada ejemplo de entrenamiento contiene variables independientes (X) —también llamadas características— y una variable dependiente (y) que es el valor que deseamos predecir. En esta lección estableceremos los fundamentos conceptuales para entender dos pilares: regresión lineal (predicción de valores continuos) y regresión logística (clasificación binaria).
💡 Núcleo Objetivo del aprendizaje supervisado: aprender una función de hipótesis h(X) que minimice el error entre las predicciones y los valores reales y.
🔹 Notación fundamental
Sea X = vector de características de una instancia (por ejemplo: tamaño de la vivienda, número de habitaciones).
y = variable target (precio de la vivienda). El conjunto de entrenamiento contiene m ejemplos:
(Xⁱ, yⁱ) con i = 1..m.
- Regresión: y es un valor real continuo (ej: precio en dólares).
- Clasificación (logística): y es una etiqueta discreta, usualmente 0 o 1 (ej: crédito concedido / denegado).
🔹 Función de hipótesis y función de costo
El modelo propone una hipótesis hθ(X), parametrizada por θ (pesos). Para evaluar qué tan bien se ajusta a los datos, definimos una función de costo (o pérdida).
- Regresión lineal: h(X) = θ₀ + θ₁·X (univariante). Costo: error cuadrático medio (MSE).
- Regresión logística: h(X) = 1 / (1 + e-θᵀX) (función sigmoide). Costo: entropía cruzada (log-loss).
| Componente | Regresión lineal | Regresión logística |
|---|---|---|
| Tipo de problema | Predicción continua | Clasificación binaria |
| Ejemplo | Precio de vivienda (USD) | Concesión de crédito (sí/no) |
| Función de hipótesis | Lineal: θ₀ + θ₁X | Sigmoide: 1/(1+e-θᵀX) |
| Función de costo | Error cuadrático medio (MSE) | Entropía cruzada / log-loss |
| Salida | Valor real sin límites | Probabilidad entre 0 y 1 |
🔹 Minimización del error y entrenamiento
El objetivo del entrenamiento es ajustar los parámetros θ para minimizar la función de costo. Esto se logra mediante algoritmos de optimización como descenso de gradiente. El modelo aprende a partir de los datos etiquetados, generalizando a nuevas observaciones.
- Datos de entrenamiento: se usa el 70-80% de los datos para ajustar el modelo.
- Datos de prueba: conjunto independiente para evaluar rendimiento real.
🔹 Casos prácticos unificados
🏠 Regresión: precio de vivienda
Características: tamaño (m²), antigüedad, ubicación.
Target: precio de venta (continuo).
Modelo lineal simple: precio ≈ θ₀ + θ₁·tamaño.
💳 Clasificación: concesión de crédito
Características: ingresos, historial crediticio, deuda.
Target: 1 (aprobado) / 0 (rechazado).
Función logística: P(aprobado) = σ(θᵀX).
🔹 División de datos: entrenamiento y prueba
Es imprescindible separar los datos en dos conjuntos para evitar sobreajuste y medir la capacidad de generalización. Una partición típica:
- Entrenamiento (80%): usado para ajustar los parámetros del modelo.
- Prueba (20%): conjunto ciego para evaluar la métrica de error (MSE o accuracy).
En el caso de la regresión logística se suele medir la exactitud (accuracy) o la matriz de confusión.
# Ejemplo: regresión lineal con una característica (Python)
X = [50, 70, 90, 110] # tamaño m²
y = [150, 200, 250, 300] # precio en miles USD
# hipótesis: h(x) = θ₀ + θ₁·x
# costo MSE: J(θ) = (1/2m) Σ (h(xⁱ) - yⁱ)²
📌 Resumen unificado – En esta lección hemos construido el andamiaje del aprendizaje supervisado:
desde la notación X, y, pasando por la función de hipótesis y costo, hasta la necesidad de dividir los datos.
Tanto la regresión lineal (valores continuos) como la regresión logística (clasificación) comparten la misma estructura de optimización.
Dominar estos conceptos es el primer paso hacia modelos más profundos.
No hay comentarios por ahora.
Compartir este contenido
Compartir enlace
Compartir en redes sociales
Compartir por correo electrónico
Please iniciar sesión para compartir esto Artículo por correo electrónico.