Contenido del curso

- Regresión Lineal Simple: Modelando la Relación Lineal entre Variables

Regresión Lineal Simple: Modelando la Relación Lineal entre Variables

La regresión lineal simple es la puerta de entrada al modelado predictivo supervisado. Describe la relación entre una variable independiente X (característica) y una variable dependiente continua y (objetivo) mediante una línea recta: y = m x + b. Aunque su apariencia es elemental, comprender a fondo sus componentes, su función de costo y el método de optimización es esencial para dominar métodos más complejos como la regresión múltiple, la regularización y las redes neuronales.

Pendiente (m) e intercepto (b): el lenguaje de la línea

En la ecuación de una recta y = m x + b, dos parámetros determinan la forma y posición de la línea:

  • Pendiente (m) – representa el cambio en y por cada unidad de cambio en X. Una pendiente positiva indica que al aumentar X, y tiende a aumentar; una pendiente negativa implica una relación inversa.
  • Intercepto (b) – es el valor de y cuando X = 0. Define la altura de la línea en el origen y a menudo tiene significado contextual (en ciertos modelos puede carecer de interpretación práctica si X=0 no es plausible).

Visualización conceptual – Imagina un plano cartesiano: m controla la inclinación, b desplaza la línea hacia arriba o abajo. Juntos definen la línea de mejor ajuste que minimiza el error global.

Función de costo: Error Cuadrático Medio (MSE)

Para encontrar la «mejor» línea necesitamos una medida cuantitativa del error. La más utilizada en regresión lineal es el Error Cuadrático Medio (MSE):

MSE = (1/n) * Σᵢ (yᵢ - ŷᵢ)²
  • yᵢ = valor real de la variable dependiente para la observación i.
  • ŷᵢ = predicción del modelo (m Xᵢ + b).
  • n = número total de observaciones.

Elevar al cuadrado los errores tiene dos consecuencias: penaliza con mayor peso los errores grandes (outliers) y elimina la cancelación entre errores positivos y negativos. La función de costo MSE es convexa, lo que garantiza la existencia de un mínimo único.

Mínimos Cuadrados Ordinarios (OLS): encontrar los parámetros óptimos

El método de Mínimos Cuadrados Ordinarios (Ordinary Least Squares, OLS) resuelve analíticamente los valores de m y b que minimizan el MSE. Se trata de un procedimiento cerrado (no iterativo) que calcula:

m = Σᵢ (Xᵢ - X̄)(yᵢ - ȳ) / Σᵢ (Xᵢ - X̄)²
b = ȳ - m X̄

donde y ȳ son las medias aritméticas de X y y respectivamente.

Interpretación: OLS busca la línea que hace que la suma de los residuos al cuadrado sea lo más pequeña posible. La pendiente m es el cociente entre la covarianza de X e y y la varianza de X.

Ejemplo aplicado: precio de vivienda según metros cuadrados

Supongamos que tenemos un conjunto de datos con metros cuadrados (m²) como variable independiente y el precio de venta (en miles de €) como objetivo. Ajustamos una recta por OLS:

m² (X)Precio real (y)Predicción (ŷ)Residuo (y-ŷ)
45125121.33.7
78198202.1-4.1
120300305.6-5.6
65165169.8-4.8
150380374.25.8

Con los coeficientes estimados (por ejemplo, m = 2.48 y b = 7.3), la línea captura la tendencia positiva: a mayor superficie, mayor precio. Visualmente, la recta atraviesa la nube de puntos minimizando la distancia vertical al cuadrado.

Evaluación del modelo: R² (coeficiente de determinación)

No basta con tener una línea; necesitamos saber qué tan bien se ajusta a los datos. (R cuadrado) mide la proporción de la varianza de y que es explicada por el modelo:

R² = 1 - (SS_res / SS_tot)
  • SSres = suma de cuadrados de los residuos (Σ (yᵢ - ŷᵢ)²).
  • SStot = suma de cuadrados total (Σ (yᵢ - ȳ)²).

R² toma valores entre 0 y 1 (aunque en modelos con intercepto puede ser negativo si el modelo es peor que la media). Un R² = 0.81 indica que el 81% de la variabilidad en el precio se explica por los metros cuadrados. El 19% restante corresponde a otros factores no capturados (ubicación, antigüedad, etc.).

Más allá de la línea: interpretación y contexto

  • Linealidad: la relación debe ser aproximadamente lineal; si los datos muestran curvatura, una transformación o modelo polinómico será necesario.
  • Homocedasticidad: la varianza de los errores debe ser constante a lo largo de X.
  • Independencia: las observaciones deben ser independientes entre sí (no aplica a series temporales sin tratamiento).
  • Normalidad de los errores: para inferencia estadística, aunque OLS es robusto ante muestras grandes.

La regresión lineal simple no solo predice; también nos permite cuantificar la fuerza de la relación y realizar inferencias causales (con cautela). Es el cimiento sobre el que se construyen modelos lineales generalizados, redes neuronales de una capa y, en esencia, el aprendizaje profundo.


Odisea Algorítmica · Lección 2

Se profundiza en la regresión lineal simple, que modela la relación entre una variable independiente (X) y una variable dependiente continua (y) mediante una línea recta: y = mx + b. Se explican los conceptos de pendiente (m) e intercepto (b), así como la función de costo de error cuadrático medio (MSE). Se detalla el método de mínimos cuadrados ordinarios (OLS) para encontrar los parámetros óptimos. Utilizando el ejemplo de predicción de precios de viviendas basado en metros cuadrados, se visualiza cómo la línea de regresión se ajusta a los puntos de datos. Se discute la importancia de evaluar el ajuste del modelo mediante métricas como R².
Calificación
0 0

No hay comentarios por ahora.