Guía de Examen

Aprendizaje Automático

Machine Learning · Todo lo importante · Bien estructurado

Definición y Conceptos Clave

      Aprendizaje Automático (Machine Learning): Rama de la IA que permite a los sistemas aprender automáticamente a partir de datos y mejorar su rendimiento con la experiencia, sin ser programados explícitamente para cada tarea.
    

📌 Definición de Mitchell (1997)

Un programa aprende de la experiencia E respecto a una tarea T con una medida de rendimiento P, si su rendimiento mejora con la experiencia.

🎯 Cuándo usar ML

Problemas difíciles de programar manualmente
Patrones complejos en grandes volúmenes de datos
Entornos que cambian con el tiempo
Tareas de percepción humana (visión, voz)

Tipos de Aprendizaje

Supervisado

Se entrena con datos etiquetados (entrada → salida conocida). El modelo aprende a mapear entradas a salidas.

Clasificación Regresión

Ej: Spam, precios casas, diagnóstico

No Supervisado

Datos sin etiquetar. El modelo descubre patrones y estructuras ocultas por sí solo.

Clustering Reducción dim.

Ej: Segmentación clientes, PCA

Por Refuerzo

Un agente aprende mediante prueba/error recibiendo recompensas o penalizaciones por sus acciones.

Política Recompensa

Ej: Juegos, robótica, AlphaGo

Semisupervisado y Autosupervisado

Semisupervisado: Combina pocos datos etiquetados con muchos no etiquetados. Útil cuando etiquetar es costoso.

Autosupervisado: Genera sus propias etiquetas a partir de los datos (BERT, GPT). Base de los LLMs modernos.

Proceso / Pipeline de ML

1. Definir problema

→

2. Recopilar datos

→

3. Preprocesar

→

4. Ingeniería de características

→

5. Seleccionar modelo

→

6. Entrenar

→

7. Evaluar

→

8. Optimizar

→

9. Desplegar

Preprocesamiento de Datos

Limpieza: tratar valores nulos, outliers
Normalización/Estandarización: escalar variables
Codificación: convertir categóricas a numéricas
División: train / validation / test (típico 70/15/15 o 80/20)
Balanceo: SMOTE, undersampling para clases desbalanceadas

Ingeniería de Características

Selección: elegir las variables más relevantes
Extracción: crear nuevas features (PCA, autoencoders)
Transformación: log, polinomios, interacciones
Importancia: feature importance en Random Forest, SHAP

Algoritmos Supervisados Principales

Regresión Lineal

Predice valores continuos. Minimiza el error cuadrático.

ŷ = w₀ + w₁x₁ + w₂x₂ + ... + wₙxₙ

Simple y múltiple
Supone relación lineal
Métrica: MSE, RMSE, R²

Regresión Logística

Clasificación binaria. Aplica función sigmoide.

P(y=1) = 1 / (1 + e^(-z))

Salida: probabilidad [0,1]
Umbral típico: 0.5
Extensión: Softmax para multiclase

Árbol de Decisión

Divide el espacio usando preguntas if/else. Estructura jerárquica.

Criterios de división: Gini, Entropía (ID3, C4.5)
Ventaja: interpretable, no requiere normalización
Problema: overfitting si es muy profundo
Se controla con max_depth, min_samples

Random Forest

Ensemble de árboles entrenados en subconjuntos aleatorios (bagging). Vota por mayoría.

Reduce overfitting del árbol individual
Robusto a outliers y ruido
Permite estimar importancia de variables
Parámetro clave: n_estimators

SVM — Máquinas de Vectores Soporte

Encuentra el hiperplano que maximiza el margen entre clases.

Vectores soporte: puntos más cercanos al hiperplano
Kernel trick: RBF, polinomial para datos no lineales
Parámetro C: penaliza errores (bias-variance tradeoff)
Eficaz en alta dimensionalidad

KNN — K-Vecinos más Cercanos

Clasifica según los k puntos más similares en el entrenamiento.

Sin entrenamiento explícito (lazy learning)
Distancias: Euclídea, Manhattan, Coseno
Sensible a la escala → requiere normalización
k grande → menor varianza, más sesgo

Gradient Boosting (XGBoost, LightGBM)

Ensemble secuencial: cada árbol corrige los errores del anterior.

Boosting vs Bagging: secuencial vs paralelo
Muy potente en competiciones (Kaggle)
Parámetros: learning_rate, n_estimators, max_depth
Requiere ajuste de hiperparámetros

Naive Bayes

Basado en el teorema de Bayes. Asume independencia entre características.

P(C|X) ∝ P(C) · ∏ P(xᵢ|C)

Muy rápido y eficiente
Ideal para texto (clasificación de spam)
Funciona bien con pocos datos

Algoritmos No Supervisados

K-Means Clustering

Agrupa datos en k clusters minimizando la distancia intra-cluster.

Inicializar k centroides aleatoriamente

Asignar cada punto al centroide más cercano

Recalcular centroides

Repetir hasta convergencia

Elegir k: método del codo (Elbow)

Clustering Jerárquico

Construye un dendrograma. Dos enfoques:

Aglomerativo (bottom-up): cada punto = cluster, va fusionando
Divisivo (top-down): empieza con todos juntos, va dividiendo
Métricas de enlace: complete, average, Ward
No requiere especificar k a priori

PCA — Análisis de Componentes Principales

Reduce la dimensionalidad manteniendo la máxima varianza.

Calcula eigenvectores de la matriz de covarianza
Componentes ortogonales entre sí
Útil para visualización (2D/3D) y eliminar ruido
Varianza explicada acumulada para elegir n_components

DBSCAN

Clustering basado en densidad. No requiere definir k.

Detecta clusters de forma arbitraria
Identifica automáticamente outliers
Parámetros: epsilon (radio) y minPts
Puntos: core, border, noise

Redes Neuronales y Deep Learning

      Red Neuronal Artificial (ANN): Sistema de nodos (neuronas) organizados en capas que aprenden representaciones jerárquicas de los datos mediante el ajuste de pesos con backpropagation.
    

Arquitectura básica (MLP)

Capa entrada: recibe las features
Capas ocultas: aprenden representaciones
Capa salida: clasificación/regresión
Neurona: suma ponderada + función activación

a = f(w·x + b)

Funciones de Activación

Función	Rango	Uso típico
ReLU	[0, ∞)	Capas ocultas (estándar)
Sigmoid	(0, 1)	Salida binaria
Softmax	(0,1), suma=1	Salida multiclase
Tanh	(-1, 1)	Capas ocultas (RNNs)
Leaky ReLU	(-∞, ∞)	Evita neuronas muertas

Backpropagation y Entrenamiento

Forward pass: calcular predicción
Loss: medir error (Cross-entropy, MSE)
Backward pass: calcular gradientes (regla de la cadena)
Update: ajustar pesos con el optimizador

Optimizadores

SGD Adam RMSprop AdaGrad

Tipos de Redes Profundas

CNN (Convolutional): imágenes, visión por computador
RNN/LSTM: secuencias, texto, series temporales
Transformer: NLP (BERT, GPT), atención
GAN: generación de datos sintéticos
Autoencoder: reducción dim., detección anomalías

Evaluación de Modelos

Matriz de Confusión (Clasificación)

	Pred. Positivo	Pred. Negativo
Real Positivo	TP (Verdadero +)	FN (Falso -)
Real Negativo	FP (Falso +)	TN (Verdadero -)

Accuracy = (TP + TN) / Total

Precision = TP / (TP + FP)

Recall = TP / (TP + FN)

F1-Score = 2 · (P · R) / (P + R)

Métricas Importantes

AUC-ROC: área bajo la curva ROC. Cuanto más cerca de 1, mejor. Mide discriminación.
Curva Precision-Recall: útil con clases desbalanceadas
Log-Loss: penaliza predicciones con alta confianza incorrecta

Para Regresión

MSE = mean((y - ŷ)²)

RMSE = √MSE

MAE = mean(|y - ŷ|)

R² = 1 - SS_res/SS_tot

Validación del Modelo

Cross-Validation (k-fold)

Divide datos en k subconjuntos. Entrena k veces usando k-1 como train y 1 como validación. Métrica final = media de las k evaluaciones.

k típico: 5 o 10. Reduce varianza en la estimación.

Hold-out simple

División fija: train/val/test. Rápido pero más variable. Se usa con datasets grandes.

Leave-One-Out (LOO)

Caso extremo de k-fold donde k = n. Costoso pero sin sesgo.

Overfitting, Underfitting y Regularización

Underfitting

El modelo es demasiado simple. Error alto en train y test.

Modelo con poco sesgo necesario
Solución: más features, modelo más complejo

Buen ajuste

Error bajo en train y generaliza bien a nuevos datos (test).

Balance bias-varianza óptimo
Objetivo de todo modelo ML

Overfitting

El modelo memoriza el train. Error bajo en train, alto en test.

Demasiada complejidad
Solución: regularización, más datos

Técnicas de Regularización

L1 (Lasso)

Añade penalización |w| a la función de coste. Produce modelos sparse (pesos = 0). Útil para selección de features.

L2 (Ridge)

Añade penalización w² . Reduce los pesos sin llevarlos a cero. Más estable numéricamente.

ElasticNet

Combinación de L1 y L2. Equilibrio entre ambos efectos.

Dropout (Redes Neuronales)

Desactiva neuronas aleatoriamente durante entrenamiento (tasa típica 0.2–0.5). Previene co-adaptación.

Early Stopping

Detiene el entrenamiento cuando la pérdida en validación empieza a subir.

Data Augmentation

Genera más datos de entrenamiento mediante transformaciones (rotación, flip, ruido).

      Dilema Bias-Varianza: Bias alto → underfitting (modelo no captura patrón). Varianza alta → overfitting (sensible a ruido en train). El objetivo es encontrar el equilibrio óptimo.
    

Optimización de Hiperparámetros

Grid Search

Prueba todas las combinaciones posibles de hiperparámetros en una rejilla definida.

Costoso en tiempo. Garantiza encontrar el mejor dentro del espacio definido.

Random Search

Muestrea combinaciones aleatorias. Más eficiente que Grid Search en espacios grandes.

Suele encontrar buenas soluciones con menos iteraciones.

Bayesian Optimization

Usa resultados previos para guiar la búsqueda. Modela la función objetivo con un proceso gaussiano.

Más eficiente. Herramientas: Optuna, Hyperopt.

Métodos Ensemble

Técnica	Estrategia	Cómo combina	Ejemplos
Bagging	Entrena modelos en paralelo en subsets con reemplazo (bootstrap)	Voto mayoritario / promedio	Random Forest
Boosting	Modelos secuenciales; cada uno corrige errores del anterior	Suma ponderada	XGBoost, AdaBoost, LightGBM
Stacking	Entrena un metamodelo que aprende a combinar predicciones base	Modelo de nivel 2 (meta-learner)	Blending en Kaggle
Voting	Combina distintos tipos de modelos	Voto duro o blando	VotingClassifier sklearn

Aplicaciones en Gestión Empresarial

Aplicaciones Clave

🛒 Segmentación de clientes (clustering)
📊 Predicción de churn (baja de clientes)
💰 Detección de fraude en transacciones
📦 Previsión de demanda y gestión de inventario
🏦 Scoring crediticio y riesgo financiero
🎯 Sistemas de recomendación (cross-selling)
📈 Predicción de precios de activos
🔧 Mantenimiento predictivo en manufactura

ML vs Minería de Datos vs BI

Aspecto	BI / OLAP	Data Mining	ML
Enfoque	Descriptivo	Exploratorio	Predictivo
Intervención	Alta	Media	Baja (auto)
Datos	Estructurados	Estructurados	Cualquier tipo
Objetivo	¿Qué pasó?	¿Qué hay?	¿Qué pasará?

Resumen Rápido para el Examen

🔑 Conceptos que no pueden faltar

Diferencia supervisado / no supervisado / refuerzo
Regresión lineal vs logística (cuándo usar cada una)
Árbol de decisión: Gini, Entropía
Random Forest = bagging de árboles
SVM: hiperplano de máximo margen, kernel trick
K-Means: algoritmo EM iterativo
PCA: reducción de dimensionalidad por varianza
Backpropagation + descenso del gradiente

Overfitting → regularización L1/L2/dropout
Bias-Varianza: el tradeoff fundamental
Cross-validation k-fold: evaluación robusta
Matriz de confusión: TP, FP, TN, FN
Precision vs Recall (cuándo priorizar cada uno)
Ensemble: bagging (RF) vs boosting (XGBoost)
Pipeline ML: de datos a despliegue
Hiperparámetros: grid search, random search

      Tip examen: Si preguntan "¿cuándo usar X modelo?" — pensa en: tipo de salida (contínua/categoría), tamaño de datos, interpretabilidad requerida y si hay relación lineal o no. Esos 4 criterios cubren la mayoría de preguntas de selección de algoritmo.