Contenido del curso

- Introducción a los Modelos Supervisados: Regresión Lineal y Regresión Logística

Lección: Introducción a Modelos Supervisados

📘 Introducción a los Modelos Supervisados: Regresión Lineal y Regresión Logística

Aprendizaje supervisado es la rama del machine learning donde entrenamos un modelo con un conjunto de datos etiquetados. Cada ejemplo de entrenamiento contiene variables independientes (X) —también llamadas características— y una variable dependiente (y) que es el valor que deseamos predecir. En esta lección estableceremos los fundamentos conceptuales para entender dos pilares: regresión lineal (predicción de valores continuos) y regresión logística (clasificación binaria).

💡 Núcleo Objetivo del aprendizaje supervisado: aprender una función de hipótesis h(X) que minimice el error entre las predicciones y los valores reales y.

🔹 Notación fundamental

Sea X = vector de características de una instancia (por ejemplo: tamaño de la vivienda, número de habitaciones). y = variable target (precio de la vivienda). El conjunto de entrenamiento contiene m ejemplos: (Xⁱ, yⁱ) con i = 1..m.

  • Regresión: y es un valor real continuo (ej: precio en dólares).
  • Clasificación (logística): y es una etiqueta discreta, usualmente 0 o 1 (ej: crédito concedido / denegado).

🔹 Función de hipótesis y función de costo

El modelo propone una hipótesis hθ(X), parametrizada por θ (pesos). Para evaluar qué tan bien se ajusta a los datos, definimos una función de costo (o pérdida).

  • Regresión lineal: h(X) = θ₀ + θ₁·X (univariante). Costo: error cuadrático medio (MSE).
  • Regresión logística: h(X) = 1 / (1 + e-θᵀX) (función sigmoide). Costo: entropía cruzada (log-loss).
ComponenteRegresión linealRegresión logística
Tipo de problemaPredicción continuaClasificación binaria
EjemploPrecio de vivienda (USD)Concesión de crédito (sí/no)
Función de hipótesisLineal: θ₀ + θ₁XSigmoide: 1/(1+e-θᵀX)
Función de costoError cuadrático medio (MSE)Entropía cruzada / log-loss
SalidaValor real sin límitesProbabilidad entre 0 y 1

🔹 Minimización del error y entrenamiento

El objetivo del entrenamiento es ajustar los parámetros θ para minimizar la función de costo. Esto se logra mediante algoritmos de optimización como descenso de gradiente. El modelo aprende a partir de los datos etiquetados, generalizando a nuevas observaciones.

  • Datos de entrenamiento: se usa el 70-80% de los datos para ajustar el modelo.
  • Datos de prueba: conjunto independiente para evaluar rendimiento real.

🔹 Casos prácticos unificados

🏠 Regresión: precio de vivienda
Características: tamaño (m²), antigüedad, ubicación.
Target: precio de venta (continuo).
Modelo lineal simple: precio ≈ θ₀ + θ₁·tamaño.

💳 Clasificación: concesión de crédito
Características: ingresos, historial crediticio, deuda.
Target: 1 (aprobado) / 0 (rechazado).
Función logística: P(aprobado) = σ(θᵀX).

🔹 División de datos: entrenamiento y prueba

Es imprescindible separar los datos en dos conjuntos para evitar sobreajuste y medir la capacidad de generalización. Una partición típica:

  • Entrenamiento (80%): usado para ajustar los parámetros del modelo.
  • Prueba (20%): conjunto ciego para evaluar la métrica de error (MSE o accuracy).

En el caso de la regresión logística se suele medir la exactitud (accuracy) o la matriz de confusión.

# Ejemplo: regresión lineal con una característica (Python)
X = [50, 70, 90, 110]  # tamaño m²
y = [150, 200, 250, 300]  # precio en miles USD

# hipótesis: h(x) = θ₀ + θ₁·x
# costo MSE: J(θ) = (1/2m) Σ (h(xⁱ) - yⁱ)²

📌 Resumen unificado – En esta lección hemos construido el andamiaje del aprendizaje supervisado: desde la notación X, y, pasando por la función de hipótesis y costo, hasta la necesidad de dividir los datos. Tanto la regresión lineal (valores continuos) como la regresión logística (clasificación) comparten la misma estructura de optimización. Dominar estos conceptos es el primer paso hacia modelos más profundos.

Esta lección establece el marco conceptual del aprendizaje supervisado, diferenciando entre problemas de regresión (predicción de valores continuos) y clasificación (predicción de categorías). Se introduce la notación básica: variable independiente X (características) y variable dependiente y (target). Se presentan los conceptos de función de hipótesis, función de costo (error cuadrático medio para regresión, entropía cruzada para clasificación) y el objetivo de minimizar el error mediante el entrenamiento con datos etiquetados. Como ejemplo, se plantea la predicción del precio de una vivienda (regresión) y la concesión de un crédito (clasificación binaria). Se enfatiza la necesidad de dividir los datos en conjuntos de entrenamiento y prueba.
Calificación
0 0

No hay comentarios por ahora.