- Regresión Lineal Simple: Modelando la Relación Lineal entre Variables
Regresión Lineal Simple: Modelando la Relación Lineal entre Variables
La regresión lineal simple es la puerta de entrada al modelado predictivo supervisado. Describe la relación entre una variable independiente X (característica) y una variable dependiente continua y (objetivo) mediante una línea recta: y = m x + b. Aunque su apariencia es elemental, comprender a fondo sus componentes, su función de costo y el método de optimización es esencial para dominar métodos más complejos como la regresión múltiple, la regularización y las redes neuronales.
Pendiente (m) e intercepto (b): el lenguaje de la línea
En la ecuación de una recta y = m x + b, dos parámetros determinan la forma y posición de la línea:
- Pendiente (m) – representa el cambio en y por cada unidad de cambio en X. Una pendiente positiva indica que al aumentar X, y tiende a aumentar; una pendiente negativa implica una relación inversa.
- Intercepto (b) – es el valor de y cuando X = 0. Define la altura de la línea en el origen y a menudo tiene significado contextual (en ciertos modelos puede carecer de interpretación práctica si X=0 no es plausible).
Visualización conceptual – Imagina un plano cartesiano: m controla la inclinación, b desplaza la línea hacia arriba o abajo. Juntos definen la línea de mejor ajuste que minimiza el error global.
Función de costo: Error Cuadrático Medio (MSE)
Para encontrar la «mejor» línea necesitamos una medida cuantitativa del error. La más utilizada en regresión lineal es el Error Cuadrático Medio (MSE):
MSE = (1/n) * Σᵢ (yᵢ - ŷᵢ)²
- yᵢ = valor real de la variable dependiente para la observación i.
- ŷᵢ = predicción del modelo (m Xᵢ + b).
- n = número total de observaciones.
Elevar al cuadrado los errores tiene dos consecuencias: penaliza con mayor peso los errores grandes (outliers) y elimina la cancelación entre errores positivos y negativos. La función de costo MSE es convexa, lo que garantiza la existencia de un mínimo único.
Mínimos Cuadrados Ordinarios (OLS): encontrar los parámetros óptimos
El método de Mínimos Cuadrados Ordinarios (Ordinary Least Squares, OLS) resuelve analíticamente los valores de m y b que minimizan el MSE. Se trata de un procedimiento cerrado (no iterativo) que calcula:
m = Σᵢ (Xᵢ - X̄)(yᵢ - ȳ) / Σᵢ (Xᵢ - X̄)²
b = ȳ - m X̄
donde X̄ y ȳ son las medias aritméticas de X y y respectivamente.
Ejemplo aplicado: precio de vivienda según metros cuadrados
Supongamos que tenemos un conjunto de datos con metros cuadrados (m²) como variable independiente y el precio de venta (en miles de €) como objetivo. Ajustamos una recta por OLS:
| m² (X) | Precio real (y) | Predicción (ŷ) | Residuo (y-ŷ) |
|---|---|---|---|
| 45 | 125 | 121.3 | 3.7 |
| 78 | 198 | 202.1 | -4.1 |
| 120 | 300 | 305.6 | -5.6 |
| 65 | 165 | 169.8 | -4.8 |
| 150 | 380 | 374.2 | 5.8 |
Con los coeficientes estimados (por ejemplo, m = 2.48 y b = 7.3), la línea captura la tendencia positiva: a mayor superficie, mayor precio. Visualmente, la recta atraviesa la nube de puntos minimizando la distancia vertical al cuadrado.
Evaluación del modelo: R² (coeficiente de determinación)
No basta con tener una línea; necesitamos saber qué tan bien se ajusta a los datos. R² (R cuadrado) mide la proporción de la varianza de y que es explicada por el modelo:
R² = 1 - (SS_res / SS_tot)
- SSres = suma de cuadrados de los residuos (Σ (yᵢ - ŷᵢ)²).
- SStot = suma de cuadrados total (Σ (yᵢ - ȳ)²).
R² toma valores entre 0 y 1 (aunque en modelos con intercepto puede ser negativo si el modelo es peor que la media). Un R² = 0.81 indica que el 81% de la variabilidad en el precio se explica por los metros cuadrados. El 19% restante corresponde a otros factores no capturados (ubicación, antigüedad, etc.).
Más allá de la línea: interpretación y contexto
- Linealidad: la relación debe ser aproximadamente lineal; si los datos muestran curvatura, una transformación o modelo polinómico será necesario.
- Homocedasticidad: la varianza de los errores debe ser constante a lo largo de X.
- Independencia: las observaciones deben ser independientes entre sí (no aplica a series temporales sin tratamiento).
- Normalidad de los errores: para inferencia estadística, aunque OLS es robusto ante muestras grandes.
La regresión lineal simple no solo predice; también nos permite cuantificar la fuerza de la relación y realizar inferencias causales (con cautela). Es el cimiento sobre el que se construyen modelos lineales generalizados, redes neuronales de una capa y, en esencia, el aprendizaje profundo.
Odisea Algorítmica · Lección 2
No hay comentarios por ahora.
Compartir este contenido
Compartir enlace
Compartir en redes sociales
Compartir por correo electrónico
Please iniciar sesión para compartir esto Artículo por correo electrónico.