Guía de Examen

Aprendizaje Automático

Machine Learning · Todo lo importante · Bien estructurado

01

Definición y Conceptos Clave

Aprendizaje Automático (Machine Learning): Rama de la IA que permite a los sistemas aprender automáticamente a partir de datos y mejorar su rendimiento con la experiencia, sin ser programados explícitamente para cada tarea.
📌 Definición de Mitchell (1997)

Un programa aprende de la experiencia E respecto a una tarea T con una medida de rendimiento P, si su rendimiento mejora con la experiencia.

🎯 Cuándo usar ML
  • Problemas difíciles de programar manualmente
  • Patrones complejos en grandes volúmenes de datos
  • Entornos que cambian con el tiempo
  • Tareas de percepción humana (visión, voz)
02

Tipos de Aprendizaje

Supervisado

Se entrena con datos etiquetados (entrada → salida conocida). El modelo aprende a mapear entradas a salidas.

Clasificación Regresión

Ej: Spam, precios casas, diagnóstico

No Supervisado

Datos sin etiquetar. El modelo descubre patrones y estructuras ocultas por sí solo.

Clustering Reducción dim.

Ej: Segmentación clientes, PCA

Por Refuerzo

Un agente aprende mediante prueba/error recibiendo recompensas o penalizaciones por sus acciones.

Política Recompensa

Ej: Juegos, robótica, AlphaGo

Semisupervisado y Autosupervisado
Semisupervisado: Combina pocos datos etiquetados con muchos no etiquetados. Útil cuando etiquetar es costoso.
Autosupervisado: Genera sus propias etiquetas a partir de los datos (BERT, GPT). Base de los LLMs modernos.
03

Proceso / Pipeline de ML

1. Definir problema
2. Recopilar datos
3. Preprocesar
4. Ingeniería de características
5. Seleccionar modelo
6. Entrenar
7. Evaluar
8. Optimizar
9. Desplegar
Preprocesamiento de Datos
  • Limpieza: tratar valores nulos, outliers
  • Normalización/Estandarización: escalar variables
  • Codificación: convertir categóricas a numéricas
  • División: train / validation / test (típico 70/15/15 o 80/20)
  • Balanceo: SMOTE, undersampling para clases desbalanceadas
Ingeniería de Características
  • Selección: elegir las variables más relevantes
  • Extracción: crear nuevas features (PCA, autoencoders)
  • Transformación: log, polinomios, interacciones
  • Importancia: feature importance en Random Forest, SHAP
04

Algoritmos Supervisados Principales

Regresión Lineal

Predice valores continuos. Minimiza el error cuadrático.

ŷ = w₀ + w₁x₁ + w₂x₂ + ... + wₙxₙ
  • Simple y múltiple
  • Supone relación lineal
  • Métrica: MSE, RMSE, R²
Regresión Logística

Clasificación binaria. Aplica función sigmoide.

P(y=1) = 1 / (1 + e^(-z))
  • Salida: probabilidad [0,1]
  • Umbral típico: 0.5
  • Extensión: Softmax para multiclase
Árbol de Decisión

Divide el espacio usando preguntas if/else. Estructura jerárquica.

  • Criterios de división: Gini, Entropía (ID3, C4.5)
  • Ventaja: interpretable, no requiere normalización
  • Problema: overfitting si es muy profundo
  • Se controla con max_depth, min_samples
Random Forest

Ensemble de árboles entrenados en subconjuntos aleatorios (bagging). Vota por mayoría.

  • Reduce overfitting del árbol individual
  • Robusto a outliers y ruido
  • Permite estimar importancia de variables
  • Parámetro clave: n_estimators
SVM — Máquinas de Vectores Soporte

Encuentra el hiperplano que maximiza el margen entre clases.

  • Vectores soporte: puntos más cercanos al hiperplano
  • Kernel trick: RBF, polinomial para datos no lineales
  • Parámetro C: penaliza errores (bias-variance tradeoff)
  • Eficaz en alta dimensionalidad
KNN — K-Vecinos más Cercanos

Clasifica según los k puntos más similares en el entrenamiento.

  • Sin entrenamiento explícito (lazy learning)
  • Distancias: Euclídea, Manhattan, Coseno
  • Sensible a la escala → requiere normalización
  • k grande → menor varianza, más sesgo
Gradient Boosting (XGBoost, LightGBM)

Ensemble secuencial: cada árbol corrige los errores del anterior.

  • Boosting vs Bagging: secuencial vs paralelo
  • Muy potente en competiciones (Kaggle)
  • Parámetros: learning_rate, n_estimators, max_depth
  • Requiere ajuste de hiperparámetros
Naive Bayes

Basado en el teorema de Bayes. Asume independencia entre características.

P(C|X) ∝ P(C) · ∏ P(xᵢ|C)
  • Muy rápido y eficiente
  • Ideal para texto (clasificación de spam)
  • Funciona bien con pocos datos
05

Algoritmos No Supervisados

K-Means Clustering

Agrupa datos en k clusters minimizando la distancia intra-cluster.

1
Inicializar k centroides aleatoriamente
2
Asignar cada punto al centroide más cercano
3
Recalcular centroides
4
Repetir hasta convergencia

Elegir k: método del codo (Elbow)

Clustering Jerárquico

Construye un dendrograma. Dos enfoques:

  • Aglomerativo (bottom-up): cada punto = cluster, va fusionando
  • Divisivo (top-down): empieza con todos juntos, va dividiendo
  • Métricas de enlace: complete, average, Ward
  • No requiere especificar k a priori
PCA — Análisis de Componentes Principales

Reduce la dimensionalidad manteniendo la máxima varianza.

  • Calcula eigenvectores de la matriz de covarianza
  • Componentes ortogonales entre sí
  • Útil para visualización (2D/3D) y eliminar ruido
  • Varianza explicada acumulada para elegir n_components
DBSCAN

Clustering basado en densidad. No requiere definir k.

  • Detecta clusters de forma arbitraria
  • Identifica automáticamente outliers
  • Parámetros: epsilon (radio) y minPts
  • Puntos: core, border, noise
06

Redes Neuronales y Deep Learning

Red Neuronal Artificial (ANN): Sistema de nodos (neuronas) organizados en capas que aprenden representaciones jerárquicas de los datos mediante el ajuste de pesos con backpropagation.
Arquitectura básica (MLP)
  • Capa entrada: recibe las features
  • Capas ocultas: aprenden representaciones
  • Capa salida: clasificación/regresión
  • Neurona: suma ponderada + función activación
a = f(w·x + b)
Funciones de Activación
FunciónRangoUso típico
ReLU[0, ∞)Capas ocultas (estándar)
Sigmoid(0, 1)Salida binaria
Softmax(0,1), suma=1Salida multiclase
Tanh(-1, 1)Capas ocultas (RNNs)
Leaky ReLU(-∞, ∞)Evita neuronas muertas
Backpropagation y Entrenamiento
  • Forward pass: calcular predicción
  • Loss: medir error (Cross-entropy, MSE)
  • Backward pass: calcular gradientes (regla de la cadena)
  • Update: ajustar pesos con el optimizador

Optimizadores

SGD Adam RMSprop AdaGrad
Tipos de Redes Profundas
  • CNN (Convolutional): imágenes, visión por computador
  • RNN/LSTM: secuencias, texto, series temporales
  • Transformer: NLP (BERT, GPT), atención
  • GAN: generación de datos sintéticos
  • Autoencoder: reducción dim., detección anomalías
07

Evaluación de Modelos

Matriz de Confusión (Clasificación)
Pred. PositivoPred. Negativo
Real PositivoTP (Verdadero +)FN (Falso -)
Real NegativoFP (Falso +)TN (Verdadero -)
Accuracy = (TP + TN) / Total
Precision = TP / (TP + FP)
Recall = TP / (TP + FN)
F1-Score = 2 · (P · R) / (P + R)
Métricas Importantes
  • AUC-ROC: área bajo la curva ROC. Cuanto más cerca de 1, mejor. Mide discriminación.
  • Curva Precision-Recall: útil con clases desbalanceadas
  • Log-Loss: penaliza predicciones con alta confianza incorrecta

Para Regresión

MSE = mean((y - ŷ)²)
RMSE = √MSE
MAE = mean(|y - ŷ|)
R² = 1 - SS_res/SS_tot
Validación del Modelo

Cross-Validation (k-fold)

Divide datos en k subconjuntos. Entrena k veces usando k-1 como train y 1 como validación. Métrica final = media de las k evaluaciones.

k típico: 5 o 10. Reduce varianza en la estimación.

Hold-out simple

División fija: train/val/test. Rápido pero más variable. Se usa con datasets grandes.

Leave-One-Out (LOO)

Caso extremo de k-fold donde k = n. Costoso pero sin sesgo.

08

Overfitting, Underfitting y Regularización

Underfitting

El modelo es demasiado simple. Error alto en train y test.

  • Modelo con poco sesgo necesario
  • Solución: más features, modelo más complejo
Buen ajuste

Error bajo en train y generaliza bien a nuevos datos (test).

  • Balance bias-varianza óptimo
  • Objetivo de todo modelo ML
Overfitting

El modelo memoriza el train. Error bajo en train, alto en test.

  • Demasiada complejidad
  • Solución: regularización, más datos
Técnicas de Regularización

L1 (Lasso)

Añade penalización |w| a la función de coste. Produce modelos sparse (pesos = 0). Útil para selección de features.

L2 (Ridge)

Añade penalización w² . Reduce los pesos sin llevarlos a cero. Más estable numéricamente.

ElasticNet

Combinación de L1 y L2. Equilibrio entre ambos efectos.

Dropout (Redes Neuronales)

Desactiva neuronas aleatoriamente durante entrenamiento (tasa típica 0.2–0.5). Previene co-adaptación.

Early Stopping

Detiene el entrenamiento cuando la pérdida en validación empieza a subir.

Data Augmentation

Genera más datos de entrenamiento mediante transformaciones (rotación, flip, ruido).

Dilema Bias-Varianza: Bias alto → underfitting (modelo no captura patrón). Varianza alta → overfitting (sensible a ruido en train). El objetivo es encontrar el equilibrio óptimo.
09

Optimización de Hiperparámetros

Grid Search

Prueba todas las combinaciones posibles de hiperparámetros en una rejilla definida.

Costoso en tiempo. Garantiza encontrar el mejor dentro del espacio definido.

Random Search

Muestrea combinaciones aleatorias. Más eficiente que Grid Search en espacios grandes.

Suele encontrar buenas soluciones con menos iteraciones.

Bayesian Optimization

Usa resultados previos para guiar la búsqueda. Modela la función objetivo con un proceso gaussiano.

Más eficiente. Herramientas: Optuna, Hyperopt.

10

Métodos Ensemble

Técnica Estrategia Cómo combina Ejemplos
Bagging Entrena modelos en paralelo en subsets con reemplazo (bootstrap) Voto mayoritario / promedio Random Forest
Boosting Modelos secuenciales; cada uno corrige errores del anterior Suma ponderada XGBoost, AdaBoost, LightGBM
Stacking Entrena un metamodelo que aprende a combinar predicciones base Modelo de nivel 2 (meta-learner) Blending en Kaggle
Voting Combina distintos tipos de modelos Voto duro o blando VotingClassifier sklearn
11

Aplicaciones en Gestión Empresarial

Aplicaciones Clave
  • 🛒 Segmentación de clientes (clustering)
  • 📊 Predicción de churn (baja de clientes)
  • 💰 Detección de fraude en transacciones
  • 📦 Previsión de demanda y gestión de inventario
  • 🏦 Scoring crediticio y riesgo financiero
  • 🎯 Sistemas de recomendación (cross-selling)
  • 📈 Predicción de precios de activos
  • 🔧 Mantenimiento predictivo en manufactura
ML vs Minería de Datos vs BI
AspectoBI / OLAPData MiningML
EnfoqueDescriptivoExploratorioPredictivo
IntervenciónAltaMediaBaja (auto)
DatosEstructuradosEstructuradosCualquier tipo
Objetivo¿Qué pasó?¿Qué hay?¿Qué pasará?
12

Resumen Rápido para el Examen

🔑 Conceptos que no pueden faltar
  • Diferencia supervisado / no supervisado / refuerzo
  • Regresión lineal vs logística (cuándo usar cada una)
  • Árbol de decisión: Gini, Entropía
  • Random Forest = bagging de árboles
  • SVM: hiperplano de máximo margen, kernel trick
  • K-Means: algoritmo EM iterativo
  • PCA: reducción de dimensionalidad por varianza
  • Backpropagation + descenso del gradiente
  • Overfitting → regularización L1/L2/dropout
  • Bias-Varianza: el tradeoff fundamental
  • Cross-validation k-fold: evaluación robusta
  • Matriz de confusión: TP, FP, TN, FN
  • Precision vs Recall (cuándo priorizar cada uno)
  • Ensemble: bagging (RF) vs boosting (XGBoost)
  • Pipeline ML: de datos a despliegue
  • Hiperparámetros: grid search, random search
Tip examen: Si preguntan "¿cuándo usar X modelo?" — pensa en: tipo de salida (contínua/categoría), tamaño de datos, interpretabilidad requerida y si hay relación lineal o no. Esos 4 criterios cubren la mayoría de preguntas de selección de algoritmo.