Contenido del curso

- Regresión Lineal Múltiple: Incorporando Múltiples Características

Regresión Lineal Múltiple: Incorporando Múltiples Características

Odisea Algorítmica – La regresión lineal múltiple extiende el modelo univariable para incorporar múltiples predictores (características) y modelar relaciones más complejas. En esta lección aprenderás su formulación vectorial, el algoritmo de gradiente descendente, la necesidad de normalización, y técnicas de regularización para evitar el sobreajuste.

Formulación del modelo

El modelo de regresión lineal múltiple asume una relación lineal entre la variable dependiente y y un conjunto de n características independientes X₁, X₂, …, Xₙ:

y = w₀ + w₁·X₁ + w₂·X₂ + … + wₙ·Xₙ

donde w₀ es el término de sesgo (intercepto) y w₁,…,wₙ son los coeficientes o pesos. En notación vectorial compacta:

y = X · w

con X matriz de diseño (incluyendo la columna de unos para el sesgo) y w vector de parámetros. La función de costo habitual es el error cuadrático medio (ECM):

J(w) = (1/2m) ∑ (h(xⁱ) − yⁱ)²

donde m es el número de ejemplos de entrenamiento y h(x) = X·w.

Gradiente descendente multivariable

Para minimizar J(w), se utiliza el gradiente descendente iterativo. Actualización simultánea de cada peso:

wⱼ := wⱼ − α · (1/m) ∑ (h(xⁱ)−yⁱ) · xⱼⁱ

la tasa de aprendizaje α controla el tamaño del paso. La implementación vectorial acelera el cálculo:

w := w − (α/m) · Xᵗ · (X·w − y)

Normalización de características

Cuando las características tienen escalas muy diferentes (ej. metros cuadrados vs. número de habitaciones), el gradiente descendente converge lentamente. La normalización (estandarización o escalado) iguala el rango:

  • Escalado min-max: transforma a [0,1] mediante (X − min)/(max − min).
  • Estandarización (Z-score): (X − μ)/σ, útil si los datos siguen una distribución normal.

Prácticamente, se centra la media y se divide por la desviación estándar. Acelera la convergencia y mejora la estabilidad numérica.

Ejemplo: predicción de precio de vivienda

Consideramos tres características: área (m²), número de habitaciones, antigüedad (años). Datos hipotéticos:

Área (m²)HabitacionesAntigüedad (años)Precio (miles USD)
70215180
9538265
55130115
12042390

Después de normalizar, el gradiente descendente encuentra los pesos óptimos. Por ejemplo, un modelo entrenado podría obtener: w₀ = 32.4, w₁ = 2.15, w₂ = 15.8, w₃ = -1.4 (antigüedad con coeficiente negativo, como se espera).

Sobreajuste (Overfitting) y subajuste (Underfitting)

Underfitting

El modelo es demasiado simple (ej. regresión lineal con una sola variable) y no captura la tendencia. Alto error en entrenamiento y prueba.

solución aumentar características o complejidad

Overfitting

El modelo se ajusta demasiado a los datos de entrenamiento (incluye ruido). Funciona bien en entrenamiento pero mal en prueba. Ocurre con muchas características o alta varianza.

solución regularización, más datos, selección de características

La regularización introduce un término de penalización en la función de costo para reducir la magnitud de los pesos.

Regularización: Ridge y Lasso

Dos técnicas populares para combatir el sobreajuste y mejorar la generalización:

  • Ridge (L2): añade penalización ∥w∥₂² (suma de cuadrados). La función de costo: J(w) + λ∑wⱼ². Reduce los coeficientes de forma uniforme, nunca los lleva a cero.
  • Lasso (L1): añade penalización ∥w∥₁ (suma de valores absolutos). J(w) + λ∑|wⱼ|. Puede forzar algunos pesos exactamente a cero, realizando selección de características.

Hiperparámetro λ controla la fuerza de regularización. Con λ=0, se obtiene regresión lineal ordinaria. Valores altos reducen la varianza pero aumentan el sesgo.

# Ridge: J_ridge = MSE + λ * sum(wⱼ²)
# Lasso: J_lasso = MSE + λ * sum(|wⱼ|)

Convergencia y buenas prácticas

✔ Normaliza siempre

Escala las características antes de aplicar gradiente descendente o regularización.

✔ Monitorea la convergencia

Grafica J(w) vs iteraciones. Si la curva no decrece, ajusta α o verifica el gradiente.

✔ Validación cruzada

Evalúa el modelo con validación k-fold para detectar overfitting.

✔ Regularización ligera

Comienza con Ridge, si necesitas seleccionar variables usa Lasso.

Regresión Lineal Múltiple es la puerta de entrada a modelos más complejos (regresión polinomial, redes neuronales). Dominar la notación vectorial, el gradiente descendente y la regularización te prepara para el aprendizaje profundo.

Odisea Algorítmica · De la regresión al aprendizaje profundo — esta infografía sintetiza los conceptos esenciales de la lección.

Se extiende la regresión lineal al caso multivariable, donde se utilizan múltiples características (X₁, X₂, ..., Xₙ) para predecir una variable continua: y = w₀ + w₁X₁ + w₂X₂ + ... + wₙXₙ. Se introduce la notación vectorial y el gradiente descendente como método iterativo para minimizar la función de costo. Se aborda la importancia de la normalización de características para acelerar la convergencia. Como ejemplo práctico, se predice el precio de una vivienda considerando metros cuadrados, número de habitaciones y antigüedad. Se discuten los conceptos de overfitting y underfitting, y se presentan técnicas básicas de regularización (Ridge y Lasso) para mejorar la generalización.
Calificación
0 0

No hay comentarios por ahora.