IA en el Desarrollo de Software — Aprendizaje Automático

Conceptos fundamentales y definiciones

¿Qué es el Aprendizaje Automático?

El Machine Learning (ML) es una rama de la Inteligencia Artificial que permite a los sistemas aprender patrones a partir de datos sin ser explícitamente programados para cada tarea. En lugar de seguir reglas codificadas a mano, el sistema ajusta sus parámetros internos mediante un proceso de entrenamiento.

Definición formal (Mitchell, 1997): "Un programa de computadora aprende de la experiencia E con respecto a una tarea T y una medida de rendimiento P, si su rendimiento en T, medido por P, mejora con la experiencia E."

Diferencias clave: Programación tradicional vs. ML

Aspecto	Programación tradicional	Machine Learning
Entrada	Datos + Reglas	Datos + Respuestas (etiquetas)
Salida	Respuestas	Reglas (modelo aprendido)
Mantenimiento	Actualizar reglas manualmente	Reentrenar con nuevos datos
Escalabilidad	Limitada por complejidad de reglas	Mejora con más datos
Casos de uso	Lógica determinista clara	Patrones complejos o implícitos

Terminología esencial

Dataset: conjunto de datos usado para entrenamiento, validación y prueba.
Feature (característica): variable de entrada usada para hacer predicciones.
Label (etiqueta): variable de salida o respuesta correcta.
Modelo: función matemática que mapea features → predicciones.
Parámetros: valores internos del modelo ajustados durante el entrenamiento (pesos).
Hiperparámetros: configuración del algoritmo definida antes del entrenamiento (tasa de aprendizaje, profundidad del árbol…).
Inferencia: uso del modelo entrenado sobre datos nuevos.
Entrenamiento / Train: proceso de ajuste de parámetros.
Validación / Val: ajuste de hiperparámetros y selección de modelo.
Test: evaluación final del modelo sobre datos nunca vistos.

Tipos de aprendizaje automático

Aprendizaje supervisado Supervisado
Los datos de entrenamiento incluyen etiquetas. El modelo aprende a predecir la salida correcta.
Ejemplos: clasificación de bugs, predicción de defectos, estimación de esfuerzo.

Aprendizaje no supervisado No supervisado
Sin etiquetas. El modelo descubre estructura oculta en los datos.
Ejemplos: agrupación de tickets similares, detección de anomalías, clustering de código.

Aprendizaje por refuerzo Refuerzo
Un agente aprende por prueba y error maximizando una recompensa.
Ejemplos: optimización de pipelines CI/CD, agentes de pruebas automáticas.

Aprendizaje semi-supervisado
Mezcla de datos etiquetados (pocos) y no etiquetados (muchos).
Ejemplos: clasificación de código con pocos ejemplos anotados.

Tipos de tareas

Tarea	Salida	Algoritmos típicos	Ejemplo en software
Clasificación	Clase discreta	SVM, Random Forest, Red neuronal	Bug crítico / no crítico
Regresión	Valor continuo	Regresión lineal, GBM, MLP	Estimación de horas de desarrollo
Clustering	Grupos	K-Means, DBSCAN, Hierarchical	Agrupación de requisitos similares
Detección de anomalías	Normal / Anomalía	Isolation Forest, Autoencoder	Detección de fallos en producción
Generación / NLP	Texto, código	Transformers (GPT, BERT)	Autocompletado, generación de tests
Ranking	Orden de relevancia	LambdaRank, LightGBM	Priorización de tareas en backlog

Algoritmos principales

Algoritmos clásicos supervisados

Regresión lineal y logística

Regresión lineal: modela la relación entre features y una variable continua. Función: ŷ = w·x + b. Minimiza el error cuadrático medio (MSE).
Regresión logística: clasificación binaria. Aplica función sigmoide para obtener probabilidades. Salida ∈ [0,1].

Sigmoide: σ(z) = 1 / (1 + e^(−z)) donde z = w·x + b

Árboles de decisión

Dividen el espacio de features en regiones mediante preguntas binarias.
Criterios de división: Gini impurity (clasificación), Varianza (regresión), Entropía / Ganancia de información.
Ventajas: interpretables, sin necesidad de escalar datos.
Desventajas: propensos a overfitting si son muy profundos.

Random Forest

Ensemble de múltiples árboles de decisión entrenados con bagging (Bootstrap Aggregating).
Cada árbol ve un subconjunto aleatorio de datos y features.
Predicción final: votación mayoritaria (clasificación) o promedio (regresión).
Reduce la varianza respecto a un árbol individual.

Gradient Boosting (GBM, XGBoost, LightGBM)

Ensemble secuencial: cada modelo nuevo corrige los errores del anterior.
Minimiza una función de pérdida mediante descenso por gradiente.
XGBoost / LightGBM: versiones optimizadas ampliamente usadas en competiciones y producción.
Muy efectivo para datos tabulares.

Support Vector Machines (SVM)

Encuentra el hiperplano óptimo que maximiza el margen entre clases.
Kernel trick: proyecta datos a espacios de mayor dimensión para separar clases no lineales (RBF, polinomial).
Eficaz con pocos datos y muchas features (texto, código).

K-Nearest Neighbors (KNN)

Clasifica un punto por los K vecinos más cercanos en el espacio de features.
Sin fase de entrenamiento explícita (lazy learning).
Costoso en inferencia para conjuntos grandes.

Algoritmos no supervisados

K-Means Clustering

Agrupa N puntos en K clusters minimizando la distancia intra-cluster.
Proceso: inicializar centroides → asignar puntos → recalcular centroides → repetir hasta convergencia.
Requiere especificar K previamente. Sensible a inicialización (K-Means++).

DBSCAN

Detecta clusters de forma arbitraria y separa puntos ruido automáticamente.
No requiere definir K. Parámetros: ε (radio de vecindad) y minPts.

PCA (Análisis de Componentes Principales)

Reducción de dimensionalidad: transforma features correlacionadas en componentes ortogonales.
Preserva la máxima varianza con el menor número de componentes.
Útil para visualización y preprocesamiento.

Comparativa rápida de algoritmos

Algoritmo	Tipo	Interpreta-bilidad	Escalabilidad	Cuándo usarlo
Regresión lineal/logística	Sup.	Alta	Alta	Línea base, relaciones lineales
Árbol de decisión	Sup.	Alta	Media	Necesidad de explicabilidad
Random Forest	Sup.	Media	Alta	Datos tabulares, robustez
XGBoost / LightGBM	Sup.	Media	Alta	Competiciones, datos tabulares
SVM	Sup.	Baja	Media	Datasets medianos, texto
Red neuronal / DL	Sup.	Baja	Muy alta	Imágenes, texto, audio
K-Means	No sup.	Media	Alta	Clustering con K conocido
DBSCAN	No sup.	Media	Media	Clusters irregulares, ruido
PCA	No sup.	Media	Alta	Reducción de dimensionalidad

Ciclo de vida de un proyecto ML

┌─────────────────────────────────────────────────────────────────────┐ │ CICLO DE VIDA ML (ML Lifecycle) │ │ │ │ 1. Definición 2. Datos 3. Preprocesado │ │ del problema ──► Recolección ──► Feature │ │ (objetivo, (fuentes, Engineering │ │ métricas) etiquetado) (limpieza, transform.) │ │ │ │ │ │ ▼ ▼ │ │ 7. Monitorización 6. Despliegue 5. Evaluación 4. Entrenamiento │ │ y Mantenimiento◄── (Producción) ◄── y selección ◄── y validación │ │ (drift, reentren.) (API/servicio) de modelo (CV, tuning) │ └─────────────────────────────────────────────────────────────────────┘

Fases detalladas

1. Definición del problema

Traducir el problema de negocio a una tarea ML (clasificación, regresión, etc.).
Definir la métrica de éxito (precisión, F1, RMSE…).
Evaluar viabilidad: ¿hay datos suficientes? ¿es ML la solución adecuada?

2. Recolección y etiquetado de datos

Identificar fuentes: bases de datos, APIs, logs, scraping, datasets públicos.
Etiquetado manual o automático (weak supervision, crowdsourcing).
Gestión de desbalanceo de clases (oversampling SMOTE, undersampling, class weights).

3–4. Preprocesado y entrenamiento

Ver Sección 5 para detalle de preprocesamiento.

5. Evaluación y selección

Comparar modelos sobre el conjunto de validación.
Cross-validation para estimación robusta del rendimiento.
Hyperparameter tuning: Grid Search, Random Search, Bayesian Optimization.

6. Despliegue (Deployment)

Empaquetado del modelo: pickle, ONNX, TensorFlow SavedModel, PMML.
Servicio de inferencia: API REST (Flask/FastAPI), gRPC, batch inference.
A/B testing para comparar el nuevo modelo con el modelo en producción.
Canary deployment: despliegue gradual para minimizar riesgo.

7. Monitorización y mantenimiento

Data drift: cambio en la distribución de los datos de entrada.
Concept drift: cambio en la relación entre features y etiquetas.
Métricas de rendimiento en producción, alertas y reentrenamiento periódico.

Preprocesamiento y Feature Engineering

Limpieza de datos

Valores faltantes: eliminación, imputación por media/mediana/moda, modelos de imputación (KNN Imputer).
Outliers: detección con IQR, Z-score; tratamiento: eliminación, winsorización o transformación.
Duplicados: eliminación de filas/columnas redundantes.
Inconsistencias: normalización de formatos, corrección de errores tipográficos.

Transformación de features

Técnica	Cuándo usarla	Cómo funciona
Normalización (Min-Max)	KNN, SVM, redes neuronales	x' = (x − min) / (max − min) → [0,1]
Estandarización (Z-score)	Regresión, PCA	x' = (x − μ) / σ → media 0, std 1
Log / Box-Cox	Distribuciones sesgadas	Reduce la asimetría
One-Hot Encoding	Variables categóricas nominales	Crea columnas binarias por categoría
Label Encoding	Categóricas ordinales	Asigna entero a cada categoría
Target Encoding	Categóricas con alta cardinalidad	Reemplaza categoría por media del target
Binning	Variables continuas con no-linealidad	Agrupa valores en intervalos discretos

Feature Engineering

Creación de features: combinaciones, ratios, diferencias entre columnas existentes.
Features temporales: extracción de hora, día de semana, mes, tendencias, lags.
Features de texto: TF-IDF, embeddings (Word2Vec, BERT), Bag of Words.
Feature Selection: eliminación de features redundantes o poco informativas.
- Métodos de filtro: correlación, chi-cuadrado, información mutua.
- Métodos wrapper: RFE (Recursive Feature Elimination).
- Métodos embedded: importancia de features en Random Forest / XGBoost.

Regla de oro: El feature engineering suele tener mayor impacto en el rendimiento del modelo que el algoritmo elegido. Datos bien preparados superan a algoritmos complejos con datos sucios.

Evaluación de modelos y métricas

Partición de datos

Hold-out: división train/val/test (p. ej., 70/15/15 o 80/20).
K-Fold Cross-Validation: divide en K partes, entrena K veces, promedia métricas. Más robusto para datasets pequeños.
Stratified K-Fold: mantiene la proporción de clases en cada fold.
Time Series Split: para datos temporales, el test siempre es futuro respecto al train.

Métricas de clasificación

Predicho Positivo Predicho Negativo Verdadero Pos. TP FN Verdadero Neg. FP TN

Métrica	Fórmula	Cuándo priorizarla
Accuracy	TP+TN / Total	Clases balanceadas
Precision	TP / (TP+FP)	Minimizar falsos positivos (spam)
Recall (Sensitivity)	TP / (TP+FN)	Minimizar falsos negativos (enfermedades, seguridad)
F1-Score	2·(P·R)/(P+R)	Balance Precision-Recall, clases desbalanceadas
AUC-ROC	Área bajo curva ROC	Evaluación global del clasificador
MCC	Correlación de Matthews	Datasets muy desbalanceados

Métricas de regresión

Métrica	Descripción	Sensible a outliers
MAE — Error Absoluto Medio	Promedio de \|y − ŷ\|	No
MSE — Error Cuadrático Medio	Promedio de (y − ŷ)²	Sí
RMSE — Raíz del MSE	√MSE, mismas unidades que y	Sí
R² — Coeficiente de determinación	Varianza explicada por el modelo [0,1]	Moderado
MAPE — Error porcentual absoluto medio	Promedio de \|y−ŷ\|/\|y\| · 100%	No

Curvas de evaluación

Curva ROC: TPR vs FPR a distintos umbrales. AUC = 1 → modelo perfecto; AUC = 0.5 → aleatorio.
Curva Precision-Recall: útil con clases muy desbalanceadas.
Curva de aprendizaje: rendimiento en train vs val según tamaño del dataset. Diagnóstica overfitting/underfitting.

Overfitting, Underfitting y Regularización

Overfitting (Sobreajuste)
El modelo memoriza los datos de entrenamiento y generaliza mal.
Síntoma: Error train bajo, error val/test alto.
Bias bajo, Varianza alta.

Underfitting (Subajuste)
El modelo es demasiado simple para capturar el patrón.
Síntoma: Error train alto, error val también alto.
Bias alto, Varianza baja.

Trade-off Bias–Varianza

Error total = Bias² + Varianza + Ruido irreducible

El objetivo es encontrar el punto óptimo de complejidad del modelo donde el error de generalización es mínimo.

Técnicas contra el overfitting

Técnica	Descripción	Aplicable en
Regularización L1 (Lasso)	Penaliza \|w\|. Produce sparsity (pone pesos a cero).	Regresión, redes neuronales
Regularización L2 (Ridge)	Penaliza w². Reduce pesos pero no los elimina.	Regresión, redes neuronales
Elastic Net	Combinación de L1 y L2.	Regresión
Dropout	Desactiva aleatoriamente neuronas durante entrenamiento.	Redes neuronales
Early Stopping	Detiene el entrenamiento cuando val loss deja de mejorar.	Redes neuronales, GBM
Data Augmentation	Genera variaciones artificiales de los datos de entrenamiento.	Imágenes, texto
Reducir complejidad	Menos capas/neuronas, menor profundidad del árbol.	Todos
Más datos	La solución más efectiva cuando es posible.	Todos

Redes Neuronales y Deep Learning

Perceptrón y Red Neuronal Artificial (ANN)

Unidad básica: neurona artificial. Calcula: salida = f(Σ wᵢxᵢ + b).
Funciones de activación:
- ReLU: max(0, x) — más usado en capas ocultas.
- Sigmoide: σ(x) — salida binaria.
- Softmax: distribución de probabilidad sobre K clases.
- Tanh: salida en [−1, 1].
Arquitectura: capas de entrada → capas ocultas → capa de salida.
Backpropagation: cálculo del gradiente del error respecto a cada peso mediante la regla de la cadena.
Descenso por gradiente: actualiza pesos en la dirección que minimiza la función de pérdida.
- Batch GD: usa todo el dataset en cada paso.
- Stochastic GD (SGD): usa un ejemplo a la vez. Ruidoso pero rápido.
- Mini-batch GD: compromiso práctico. El más usado.
Optimizadores modernos: Adam, RMSprop, AdaGrad — adaptan la tasa de aprendizaje por parámetro.

Arquitecturas de Deep Learning

Arquitectura	Tipo	Uso principal en SW
CNN — Red convolucional	Visión por computador	Detección de patrones en interfaces, capturas
RNN / LSTM / GRU	Secuencias temporales	Análisis de logs, predicción de series temporales
Transformer	NLP, código	Generación de código, comprensión de requisitos, chatbots
Autoencoder	Representación / anomalías	Detección de anomalías en métricas de sistema
GAN	Generación	Generación de datos sintéticos de prueba
Graph NN (GNN)	Grafos	Análisis de dependencias en código

Transformers y LLMs (especialmente relevantes en SW)

Basados en el mecanismo de Self-Attention: cada token atiende a todos los demás de la secuencia.
Pre-entrenamiento + Fine-tuning: modelo general entrenado en grandes volúmenes, luego ajustado para tareas específicas.
BERT: encodificador bidireccional. Clasificación, NER, búsqueda semántica.
GPT: decodificador autoregresivo. Generación de texto y código.
LLMs en software: GitHub Copilot, CodeLlama, StarCoder → generación y revisión de código.

Transfer Learning: reutilizar un modelo preentrenado en una tarea grande (p. ej., texto general) y adaptarlo a una tarea específica (p. ej., detección de vulnerabilidades). Reduce drásticamente el coste de entrenamiento y los datos necesarios.

ML aplicado a fases del desarrollo de software

Análisis de requisitos

Clasificación de requisitos: distinguir funcionales de no funcionales automáticamente (NLP + clasificadores).
Detección de ambigüedad: modelos de lenguaje identifican requisitos vagos o contradictorios.
Extracción de entidades: NER para identificar actores, acciones y restricciones en especificaciones en lenguaje natural.
Trazabilidad: embeddings semánticos para vincular requisitos con código o tests automáticamente.
Priorización: modelos de ranking basados en impacto, urgencia y dependencias.

Diseño y arquitectura

Recomendación de patrones de diseño: dado el contexto del problema, sugerir patrones adecuados (Clasificación).
Análisis de deuda técnica: modelos entrenados en histórico de código para identificar áreas problemáticas.
Detección de code smells: Random Forest / SVM sobre métricas de código (acoplamiento, cohesión, complejidad ciclomática).
Refactoring automático: LLMs sugieren y aplican refactorizaciones.

Planificación y estimación

Estimación de esfuerzo: regresión sobre features del proyecto (puntos de historia, complejidad, equipo, histórico de velocidad).
Predicción de plazos: modelos de series temporales sobre velocidad del equipo.
Predicción de riesgo: clasificadores sobre características del sprint/proyecto para predecir retrasos.
Técnicas ML usadas: Random Forest, GBM, redes LSTM para tendencias temporales.

Implementación (codificación)

Autocompletado de código: modelos de lenguaje (Copilot, Tabnine) que predicen el siguiente token.
Generación de código: LLMs (GPT-4, CodeLlama) generan funciones completas desde descripción en lenguaje natural.
Detección de bugs: análisis estático con ML para identificar patrones asociados a defectos.
Detección de vulnerabilidades: clasificadores entrenados en CWEs (Common Weakness Enumeration).
Revisión de código: modelos que detectan anti-patrones y sugieren mejoras.
Búsqueda de código: embeddings semánticos para recuperar fragmentos similares.

Pruebas (Testing)

Generación de casos de prueba: LLMs generan tests unitarios a partir del código fuente.
Priorización de tests: modelos que predicen qué tests es más probable que fallen basándose en cambios recientes.
Predicción de defectos: modelos de clasificación sobre métricas de módulo (complejidad, cambios recientes, cobertura).
Análisis de mutaciones: ML para seleccionar mutantes relevantes.
Testing de UI: visión por computador para detectar regresiones visuales.

Documentación

Generación de docstrings / comentarios: LLMs describen funciones automáticamente.
Resumen de cambios: modelos de summarización para changelogs a partir de commits.
Actualización de documentación: detección de inconsistencias entre código y docs mediante análisis semántico.

DevOps y operaciones

Análisis de logs: clustering y clasificación para detección automática de errores.
Detección de anomalías en métricas: Isolation Forest, LSTM Autoencoder sobre métricas de sistema (CPU, latencia…).
Predicción de fallos: modelos que anticipan degradación de rendimiento antes de que ocurra.
Optimización de pipelines CI/CD: RL para seleccionar orden y paralelismo de jobs.
AIOps: conjunto de técnicas ML para automatizar operaciones IT.

Herramientas y frameworks principales

Categoría	Herramienta	Uso principal
ML clásico	scikit-learn	Algoritmos clásicos, pipelines, evaluación
	XGBoost / LightGBM	Gradient boosting de alta eficiencia
	statsmodels	Modelos estadísticos, series temporales
Deep Learning	PyTorch	Investigación, flexibilidad, redes neuronales
	TensorFlow / Keras	Producción, despliegue móvil/edge
	Hugging Face Transformers	LLMs, NLP, modelos preentrenados
Datos	Pandas / NumPy	Manipulación y análisis de datos
Datos	Apache Spark / PySpark	Procesamiento distribuido de big data
MLOps	MLflow	Tracking de experimentos, registro de modelos
	Kubeflow / Vertex AI	Pipelines ML en Kubernetes / GCP
	DVC	Versionado de datos y modelos
Monitorización	Evidently AI	Detección de data drift, informes de modelo
Monitorización	Prometheus + Grafana	Métricas de sistema y modelo en producción
Visualización	Matplotlib / Seaborn / Plotly	Exploración y comunicación de datos
AutoML	AutoSklearn / H2O / Google AutoML	Selección automática de algoritmo e hiperparámetros

MLOps: ML en producción

MLOps extiende los principios de DevOps al ciclo de vida del ML, asegurando reproducibilidad, escalabilidad y monitorización continua.

Versionado: código (Git) + datos (DVC) + modelos (MLflow Model Registry).
Pipelines reproducibles: Kubeflow Pipelines, Airflow, Prefect.
Feature Store: repositorio centralizado de features reutilizables (Feast, Tecton).
CI/CD para ML: automatización de reentrenamiento, validación y despliegue del modelo.
Modelo como servicio: TorchServe, TF Serving, BentoML, Seldon Core.

Conceptos avanzados clave

Explicabilidad e interpretabilidad (XAI)

LIME: aproxima localmente el modelo con un modelo lineal interpretable para una predicción concreta.
SHAP: asigna a cada feature su contribución a la predicción basándose en la teoría de juegos (valores de Shapley). Es el estándar actual.
Importancia de features: en Random Forest/GBM, mide cuánto contribuye cada feature a la reducción del error.
Relevante para cumplimiento regulatorio (GDPR: derecho a explicación de decisiones automatizadas).

Desbalanceo de clases

Oversampling: SMOTE genera ejemplos sintéticos de la clase minoritaria.
Undersampling: reduce la clase mayoritaria (riesgo de pérdida de información).
Class weights: penaliza más los errores en la clase minoritaria durante el entrenamiento.
Umbral de decisión: ajustar el umbral de clasificación en lugar de 0.5.

Selección de hiperparámetros

Grid Search: prueba exhaustiva de todas las combinaciones. Costoso.
Random Search: muestrea aleatoriamente el espacio. Más eficiente.
Bayesian Optimization: modela la función de rendimiento y elige los siguientes hiperparámetros de forma inteligente (Optuna, Hyperopt).

Ensemble methods

Bagging: entrena modelos en muestras bootstrap y promedia (Random Forest).
Boosting: modelos secuenciales donde cada uno corrige al anterior (XGBoost, AdaBoost).
Stacking: usa las predicciones de varios modelos como input de un meta-modelo.
Voting: combina predicciones por mayoría o promedio ponderado.

Fairness y sesgo en ML

Sesgo en datos: si los datos históricos reflejan discriminación, el modelo la perpetuará.
Métricas de fairness: paridad demográfica, igualdad de oportunidades, equalized odds.
Mitigación: reweighting, resampling, post-processing del clasificador.

AutoML

Automatiza la selección de algoritmos, preprocesado e hiperparámetros. Permite a no-expertos construir modelos competitivos.

Pipeline AutoML: preprocesado → selección de algoritmo → tuning → ensamblado.
Herramientas: AutoSklearn, TPOT, H2O AutoML, Google AutoML, Azure AutoML.
Limitaciones: caja negra, coste computacional, no sustituye el conocimiento del dominio.

Federated Learning

Entrena modelos distribuidos sin centralizar datos sensibles.
Cada cliente entrena localmente y envía solo los gradientes/pesos al servidor.
Relevante para aplicaciones con restricciones de privacidad (GDPR, datos médicos).

Online Learning vs. Batch Learning

Aspecto	Batch Learning	Online Learning
Entrenamiento	Con todo el dataset de una vez	Con cada nuevo dato o mini-batch
Adaptación	Requiere reentrenamiento completo	Se adapta continuamente
Recursos	Alto coste puntual	Bajo coste continuo
Uso	Mayoría de proyectos	Sistemas de recomendación, detección de fraude en tiempo real

Conceptos adicionales para el examen:

No Free Lunch Theorem: no existe un algoritmo superior en todos los problemas. La elección depende del contexto.
Maldición de la dimensionalidad: al aumentar features, el espacio crece exponencialmente y los puntos se vuelven dispersos.
Ley de escalado: en modelos grandes, el rendimiento mejora predeciblemente con más datos y parámetros.
Data-centric AI: enfoque donde mejorar los datos tiene mayor impacto que mejorar el modelo.

Aprendizaje Automático (Machine Learning)en el Desarrollo de Software