- Regresión Lineal Múltiple: Incorporando Múltiples Características
Regresión Lineal Múltiple: Incorporando Múltiples Características
Odisea Algorítmica – La regresión lineal múltiple extiende el modelo univariable para incorporar múltiples predictores (características) y modelar relaciones más complejas. En esta lección aprenderás su formulación vectorial, el algoritmo de gradiente descendente, la necesidad de normalización, y técnicas de regularización para evitar el sobreajuste.
Formulación del modelo
El modelo de regresión lineal múltiple asume una relación lineal entre la variable dependiente y y un conjunto de n características independientes X₁, X₂, …, Xₙ:
y = w₀ + w₁·X₁ + w₂·X₂ + … + wₙ·Xₙ
donde w₀ es el término de sesgo (intercepto) y w₁,…,wₙ son los coeficientes o pesos. En notación vectorial compacta:
y = X · w
con X matriz de diseño (incluyendo la columna de unos para el sesgo) y w vector de parámetros. La función de costo habitual es el error cuadrático medio (ECM):
J(w) = (1/2m) ∑ (h(xⁱ) − yⁱ)²
donde m es el número de ejemplos de entrenamiento y h(x) = X·w.
Gradiente descendente multivariable
Para minimizar J(w), se utiliza el gradiente descendente iterativo. Actualización simultánea de cada peso:
wⱼ := wⱼ − α · (1/m) ∑ (h(xⁱ)−yⁱ) · xⱼⁱ
la tasa de aprendizaje α controla el tamaño del paso. La implementación vectorial acelera el cálculo:
w := w − (α/m) · Xᵗ · (X·w − y)
Normalización de características
Cuando las características tienen escalas muy diferentes (ej. metros cuadrados vs. número de habitaciones), el gradiente descendente converge lentamente. La normalización (estandarización o escalado) iguala el rango:
- Escalado min-max: transforma a [0,1] mediante (X − min)/(max − min).
- Estandarización (Z-score): (X − μ)/σ, útil si los datos siguen una distribución normal.
Prácticamente, se centra la media y se divide por la desviación estándar. Acelera la convergencia y mejora la estabilidad numérica.
Ejemplo: predicción de precio de vivienda
Consideramos tres características: área (m²), número de habitaciones, antigüedad (años). Datos hipotéticos:
| Área (m²) | Habitaciones | Antigüedad (años) | Precio (miles USD) |
|---|---|---|---|
| 70 | 2 | 15 | 180 |
| 95 | 3 | 8 | 265 |
| 55 | 1 | 30 | 115 |
| 120 | 4 | 2 | 390 |
Después de normalizar, el gradiente descendente encuentra los pesos óptimos. Por ejemplo, un modelo entrenado podría obtener: w₀ = 32.4, w₁ = 2.15, w₂ = 15.8, w₃ = -1.4 (antigüedad con coeficiente negativo, como se espera).
Sobreajuste (Overfitting) y subajuste (Underfitting)
Underfitting
El modelo es demasiado simple (ej. regresión lineal con una sola variable) y no captura la tendencia. Alto error en entrenamiento y prueba.
solución aumentar características o complejidadOverfitting
El modelo se ajusta demasiado a los datos de entrenamiento (incluye ruido). Funciona bien en entrenamiento pero mal en prueba. Ocurre con muchas características o alta varianza.
solución regularización, más datos, selección de característicasLa regularización introduce un término de penalización en la función de costo para reducir la magnitud de los pesos.
Regularización: Ridge y Lasso
Dos técnicas populares para combatir el sobreajuste y mejorar la generalización:
- Ridge (L2): añade penalización ∥w∥₂² (suma de cuadrados). La función de costo: J(w) + λ∑wⱼ². Reduce los coeficientes de forma uniforme, nunca los lleva a cero.
- Lasso (L1): añade penalización ∥w∥₁ (suma de valores absolutos). J(w) + λ∑|wⱼ|. Puede forzar algunos pesos exactamente a cero, realizando selección de características.
Hiperparámetro λ controla la fuerza de regularización. Con λ=0, se obtiene regresión lineal ordinaria. Valores altos reducen la varianza pero aumentan el sesgo.
# Ridge: J_ridge = MSE + λ * sum(wⱼ²)
# Lasso: J_lasso = MSE + λ * sum(|wⱼ|)
Convergencia y buenas prácticas
✔ Normaliza siempre
Escala las características antes de aplicar gradiente descendente o regularización.
✔ Monitorea la convergencia
Grafica J(w) vs iteraciones. Si la curva no decrece, ajusta α o verifica el gradiente.
✔ Validación cruzada
Evalúa el modelo con validación k-fold para detectar overfitting.
✔ Regularización ligera
Comienza con Ridge, si necesitas seleccionar variables usa Lasso.
Regresión Lineal Múltiple es la puerta de entrada a modelos más complejos (regresión polinomial, redes neuronales). Dominar la notación vectorial, el gradiente descendente y la regularización te prepara para el aprendizaje profundo.
Odisea Algorítmica · De la regresión al aprendizaje profundo — esta infografía sintetiza los conceptos esenciales de la lección.
No hay comentarios por ahora.
Compartir este contenido
Compartir enlace
Compartir en redes sociales
Compartir por correo electrónico
Please iniciar sesión para compartir esto Artículo por correo electrónico.