Contenido del curso

- Introducción al Aprendizaje No Supervisado y sus Aplicaciones

⚡ Introducción al Aprendizaje No Supervisado y sus Aplicaciones

De la Regresión al Deep Learning: una mirada unificada al paradigma no supervisado

1. Definición: Aprendizaje No Supervisado vs Supervisado

En el corazón de la Odisea Algorítmica, el aprendizaje supervisado se apoya en pares (X, y) —etiquetas explícitas que guían al modelo. Por el contrario, el aprendizaje no supervisado trabaja únicamente con datos de entrada X, sin respuestas predefinidas. Su objetivo es descubrir estructuras latentes, patrones ocultos o representaciones compactas. Mientras que el supervisado aprende a predecir, el no supervisado aprende a organizar, resumir o separar.

Analogía clave: el supervisado es como un examen con solucionario; el no supervisado es explorar un archipiélago desconocido sin mapa, descubriendo islas (clusters) o dibujando una proyección en 2D.
DimensiónSupervisadoNo Supervisado
EtiquetasRequeridas (y)No existen
ObjetivoPredicción / clasificaciónDescubrimiento / compresión
MétricasExactitud, F1, MSESilhouette, cohesión, separación
EjemplosRegresión, SVM, Deep Learning con etiquetasK-means, PCA, autoencoders

2. Motivación: Clustering y Reducción de Dimensionalidad

Dos pilares sostienen el aprendizaje no supervisado: el clustering (segmentación natural) y la reducción de dimensionalidad (visualización, compresión, eliminación de ruido). Cuando los datos tienen cientos o miles de dimensiones, la reducción permite ver la estructura y mitigar la maldición de la dimensionalidad. El clustering, por su parte, revela agrupaciones sin supervisión humana.

  • Segmentación de clientes: perfiles de compra sin etiquetas previas.
  • Agrupación natural: especies, patrones de expresión génica, tipos de documentos.
  • Visualización: t-SNE, UMAP, PCA transforman datos complejos en 2D/3D.
  • Compresión y eliminación de ruido: autoencoders y PCA reconstruyen señales limpias.

3. Panorama de Aplicaciones Reales

El alcance del no supervisado cruza disciplinas. A continuación se presentan escenarios representativos que evidencian su versatilidad.

  • Segmentación de clientes: clustering (K-means, DBSCAN) para personalizar ofertas y detectar nichos.
  • Análisis filogenético: agrupamiento de secuencias genéticas para reconstruir árboles evolutivos.
  • Detección de comunidades: en redes sociales o biológicas (algoritmos de modularidad).
  • Riesgo financiero: identificación de patrones anómalos en transacciones sin etiquetas de fraude.
  • Visualización genómica: reducción de dimensionalidad para explorar paisajes de expresión génica.

🧬 Filogenética

Clustering de secuencias de ADN para inferir relaciones evolutivas.

🏷️ Segmentación

Agrupación natural de clientes sin etiquetas previas.

📉 Riesgo

Detección de comportamientos anómalos en datos financieros.

4. Metodología de Evaluación

Evaluar modelos no supervisados representa un reto conceptual, pues no hay una «verdad absoluta». Se usan dos familias de métricas:

  • Métricas internas: basadas solo en los datos y la asignación. La más conocida es el coeficiente de Silhouette (valores entre -1 y 1, mide cohesión vs separación). También se usan el índice de Davies-Bouldin o la suma de cuadrados intra-cluster.
  • Métricas externas: aplicables si existen etiquetas de referencia (por ejemplo, en datasets artificiales o con anotaciones previas). Incluyen el Rand ajustado, la información mutua normalizada (NMI) o la homogeneidad.

En la práctica, una estrategia robusta combina métricas internas con validación visual (proyecciones) y conocimiento del dominio.

📐 Silhouette (interna): para cada punto i, s(i) = (b(i) - a(i)) / max(a(i), b(i)), donde a(i) es la distancia media intra-cluster y b(i) la distancia media al cluster vecino más cercano. Promedio global → calidad del clustering.
Tipo de métricaEjemplosRequiere etiquetas
InternaSilhouette, Davies-Bouldin, Índice de Calinski-HarabaszNo
ExternaRand ajustado, NMI, Homogeneidad, V-measureSí (ground truth)
# Ejemplo: cálculo de Silhouette en Python (scikit-learn)
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

X = cargar_datos()
modelo = KMeans(n_clusters=4, random_state=42)
etiquetas = modelo.fit_predict(X)
puntaje = silhouette_score(X, etiquetas)
print(f"Silhouette promedio: {puntaje:.3f}")

Odisea Algorítmica De la regresión al aprendizaje profundo — módulo de fundamentos no supervisados.

Definición de aprendizaje no supervisado vs supervisado. Motivación para usar clustering (segmentación, agrupación natural) y reducción de dimensionalidad (visualización, compresión, eliminación de ruido). Panorama de aplicaciones: segmentación de clientes, análisis filogenético, detección de comunidades, riesgo financiero, visualización genómica. Metodología de evaluación: métricas internas (silhouette) y externas (si hay etiquetas).
Calificación
0 0

No hay comentarios por ahora.