Documática, Gestión Documental, CMS, SEO y más

Unidad 1 · Documática

Documática: Gestión y Archivo Electrónico de Documentos

La Documática es la disciplina que estudia la aplicación de tecnologías informáticas y telemáticas a la gestión, producción, tratamiento, almacenamiento, archivo, recuperación y difusión de documentos en entornos organizacionales. Conjuga las técnicas documentales con la informática. — Concepto interdisciplinar entre Documentación e Informática

La Documática surge de la necesidad de gestionar de forma eficiente el creciente volumen de información documental generado por las organizaciones. Una empresa media genera decenas de miles de documentos al año: contratos, facturas, informes, correos, actas, certificados… Sin sistemas adecuados, este volumen se vuelve inmanejable.

La evolución es clara: del archivo físico (papel, carpetas, archivadores) al archivo electrónico (archivos digitales, bases de datos documentales) y, hoy, al archivo inteligente (búsqueda semántica, IA, metadatos automáticos).

Conceptos fundamentales

Documento electrónico
Información registrada, almacenada y comunicada mediante medios informáticos, que puede ser gestionada, transmitida y consultada sin necesidad de soporte físico. Incluye texto, imágenes, audio, vídeo, datos estructurados y cualquier combinación de ellos.
Metadatos
"Datos sobre datos". Información descriptiva asociada a un documento: título, autor, fecha de creación, fecha de modificación, palabras clave, versión, clasificación, permisos, tamaño, formato. Son esenciales para la recuperación eficiente de documentos.
Digitalización
Proceso de conversión de documentos físicos (papel) a formato digital mediante escáner y software de reconocimiento óptico de caracteres (OCR). Permite incorporar el legado documental histórico al archivo electrónico.
OCR (Optical Character Recognition)
Tecnología que reconoce e interpreta el texto contenido en imágenes escaneadas, convirtiéndolo en texto editable y buscable. Fundamental en los proyectos de digitalización documental.
Formato de archivo
Los formatos más relevantes en gestión documental son: PDF/A (archivado a largo plazo, ISO 19005), TIFF (imagen de alta calidad), XML (datos estructurados), OXML/ODF (documentos ofimáticos), y METS/MODS/EAD (estándares de bibliotecas y archivos).
Firma electrónica
Mecanismo criptográfico que garantiza la autenticidad, integridad y no repudio de un documento electrónico. Regulada por el Reglamento eIDAS (UE) y la Ley 6/2020. Equivalente funcional a la firma manuscrita con plena validez legal.
Archivo electrónico
Sistema organizado de almacenamiento y preservación de documentos electrónicos a largo plazo, garantizando su autenticidad, integridad y accesibilidad. Diferencia entre archivo de gestión (activo), archivo intermedio (semiactivo) y archivo histórico (permanente).

📌 Nota del profesor La Documática no es solo "guardar archivos en el ordenador". Implica establecer políticas de nomenclatura, clasificación, retención, acceso y destrucción controlada de documentos. Una organización sin política documental pierde tiempo buscando archivos, incumple normativas y pone en riesgo información confidencial.

Ciclo de vida del documento electrónico

Todo documento pasa por un ciclo de vida que la Documática debe gestionar en cada fase:

1

Creación / Captura

Generación del documento (redacción, digitalización, importación). Asignación de metadatos iniciales, clasificación y registro de entrada. Puede ser manual o automática (formularios, APIs, correo).

2

Revisión y aprobación

El documento circula por los revisores definidos en el flujo de trabajo. Se aplican versiones, comentarios y control de cambios. Un documento pendiente de firma no es un documento definitivo.

3

Distribución / Uso activo

El documento definitivo se distribuye a los usuarios autorizados. Reside en el archivo de gestión, con acceso frecuente. Se controlan permisos de lectura, escritura y descarga.

4

Almacenamiento / Archivo

Cuando el documento ya no es de uso cotidiano pasa al archivo intermedio o histórico. Se aplican políticas de retención (LOPD, ENS, normativas sectoriales). Garantías de integridad y autenticidad.

5

Disposición final

Según la política de retención: transferencia al archivo histórico, destrucción certificada, o conservación permanente. La destrucción debe documentarse para garantizar el cumplimiento normativo (GDPR, LOPD).

Unidad 2 · Sistemas de Gestión Documental

Sistemas de Gestión Documental (SGD)

Un Sistema de Gestión Documental (SGD) o Document Management System (DMS) es una aplicación informática diseñada para almacenar, organizar, controlar, distribuir y recuperar documentos electrónicos dentro de una organización, gestionando su ciclo de vida completo. — ISO 15489: Records Management

Un SGD no es simplemente un disco duro compartido o una carpeta en red. Es un sistema que aporta control, trazabilidad, seguridad y eficiencia a la gestión de la información documental. Es la diferencia entre "mis documentos en el escritorio" y un archivo corporativo gobernado.

Funciones y características de un SGD

🗂️

Captura e indexación

Ingesta de documentos desde múltiples fuentes (escáner, email, formularios, sistemas externos). Asignación automática o manual de metadatos e índices.

🔍

Búsqueda y recuperación

Búsqueda por metadatos, texto completo (full-text search), operadores booleanos, facetas, similitud semántica. El tiempo de recuperación es crítico.

🔒

Control de acceso

Gestión de permisos por usuario, rol o grupo. Quién puede ver, editar, descargar, eliminar o compartir cada documento. Auditoría de accesos.

📋

Control de versiones

Histórico completo de todas las versiones de un documento. Check-in / check-out para edición exclusiva. Comparación entre versiones.

🔄

Flujos de trabajo

Automatización de procesos de revisión, aprobación y firma. Notificaciones, plazos y escalado. Integración con el módulo de workflow.

📦

Gestión del ciclo de vida

Aplicación automática de políticas de retención y disposición. Transferencia a archivo histórico o destrucción certificada según normativa.

🔗

Integración

APIs para conectar con ERP (SAP), CRM, sistemas de RR.HH., portales web, Office, correo electrónico. El SGD no es una isla.

📊

Auditoría y compliance

Registro inmutable de quién accedió, qué hizo y cuándo. Informes de cumplimiento para GDPR, ENS, ISO 27001, SOX.

Principales SGD del mercado

Producto	Tipo	Enfoque	Características destacadas
Microsoft SharePoint	Comercial	Corporativo	Integración Office 365, flujos Power Automate, búsqueda avanzada
Alfresco	Open source	Empresarial	CMIS estándar, BPM integrado, gran comunidad, escalable
OpenText Documentum	Comercial	Gran empresa	Muy maduro, gobernanza del contenido, sector legal y farmacéutico
M-Files	Comercial	Pyme / empresa	Clasificación basada en metadatos (no carpetas), IA integrada
Documentos de Google	SaaS	Colaborativo	Edición simultánea, versiones automáticas, integrado en Workspace
LogicalDOC	Open source	Pyme	Interfaz sencilla, OCR integrado, REST API
Nuxeo	Open source	Empresarial	Arquitectura moderna, bajo-código, headless content

Normas y estándares relevantes

ISO 15489
Norma internacional de gestión de documentos (Records Management). Define principios, políticas y prácticas para la creación, captura y gestión de documentos auténticos, fiables e íntegros.
ISO 14641 (NF Z42-013)
Especificaciones para el diseño y funcionamiento de sistemas de archivado electrónico. Define requisitos para garantizar la integridad e inmutabilidad de los documentos archivados.
CMIS (OASIS)
Content Management Interoperability Services. Estándar de interoperabilidad que define una API común para que diferentes SGD puedan comunicarse y compartir documentos.
ENS (Esquema Nacional de Seguridad)
Marco normativo español (Real Decreto 311/2022) que regula la seguridad en la administración electrónica, incluyendo la gestión segura de documentos en el sector público.
MoReq2010
Modelo de Requisitos para la Gestión de Documentos de Archivo Electrónicos, promovido por la Comisión Europea. Estándar de referencia para SGD en administraciones públicas europeas.

Unidad 3 · Gestores de Contenidos

Gestores de Contenidos (CMS)

Un Sistema de Gestión de Contenidos (CMS, Content Management System) es una aplicación que permite crear, gestionar, organizar y publicar contenido digital en un sitio web sin necesidad de conocimientos técnicos avanzados de programación, separando el contenido de su presentación. — Concepto estándar de la industria web

La diferencia fundamental respecto a un SGD es el destino del contenido: un SGD gestiona documentos internos de la organización; un CMS gestiona contenido destinado a publicarse en canales digitales (web, aplicaciones móviles, portales). Sin embargo, la frontera se difumina en los CMS empresariales modernos.

Componentes de un CMS

✏️

CMA — Área de gestión

Content Management Application. La interfaz de administración donde los editores crean, editan, organizan y publican el contenido. El "backend".

🌐

CDA — Área de entrega

Content Delivery Application. El motor que toma el contenido y lo presenta al usuario final. Gestiona plantillas, temas, caché y renderizado. El "frontend".

🗄️

Base de datos

Almacena el contenido, metadatos, configuración y usuarios. MySQL, PostgreSQL o MongoDB son los más frecuentes.

🧩

Sistema de plantillas

Separa el diseño visual del contenido. Permite cambiar la apariencia sin tocar el contenido. Twig, Blade, Handlebars, Liquid son motores comunes.

🔌

Plugins / módulos

Extensiones que añaden funcionalidades sin modificar el núcleo: SEO, e-commerce, galería, formularios, redes sociales, analítica.

👤

Gestión de usuarios

Roles y permisos: administrador, editor, autor, colaborador, suscriptor. Control de quién puede crear, editar, publicar o eliminar contenido.

Tipos de CMS

Tipo	Descripción	Ejemplos	Uso típico
CMS tradicional (acoplado)	Backend y frontend integrados. El CMS genera y sirve directamente las páginas HTML.	WordPress, Joomla, Drupal	Blogs, webs corporativas, portales
CMS headless	Solo backend (repositorio de contenido). El contenido se sirve vía API (REST/GraphQL) a cualquier frontend.	Contentful, Strapi, Sanity, Ghost	Omnicanal: web + app + IoT
CMS híbrido	Combina capacidades headless con la posibilidad de renderizado tradicional.	Directus, Payload, Craft CMS	Proyectos complejos con múltiples canales
ECM (Enterprise Content Management)	Gestión de contenido empresarial que fusiona CMS y SGD: documentos internos + publicación web.	SharePoint, OpenText, IBM FileNet	Grandes organizaciones, intranets
CMS e-commerce	CMS especializado en tiendas online: catálogos, carrito, pagos, inventario.	Magento, PrestaShop, WooCommerce	Tiendas online de todo tamaño
DAM (Digital Asset Management)	Gestión de activos digitales: imágenes, vídeo, audio, assets de marketing.	Bynder, Brandfolder, Cloudinary	Equipos de marketing y diseño

💡 WordPress domina el mercado WordPress gestiona más del 43% de todos los sitios web del mundo (2024). Su éxito se debe a la combinación de facilidad de uso, enorme ecosistema de plugins y temas, y comunidad global. Drupal es preferido por administraciones públicas (gov.uk, whitehouse.gov). Joomla ocupa un espacio intermedio con gran comunidad latinoamericana.

Estructura básica de WordPress (ejemplo de CMS)

WordPress — Estructura de directorios y archivo de tema

// Estructura de directorios de WordPress
/wordpress/
├── wp-admin/          // Panel de administración
├── wp-includes/       // Core de WordPress
└── wp-content/
    ├── themes/        // Temas (diseño / presentación)
    │   └── mi-tema/
    │       ├── style.css      // Cabecera del tema
    │       ├── functions.php  // Funcionalidades del tema
    │       ├── index.php      // Plantilla principal
    │       ├── single.php     // Plantilla artículo individual
    │       └── header.php     // Cabecera HTML
    ├── plugins/       // Extensiones de funcionalidad
    │   ├── yoast-seo/
    │   └── woocommerce/
    └── uploads/       // Archivos multimedia subidos

// Loop de WordPress (cómo se muestra el contenido)
<?php if ( have_posts() ) : while ( have_posts() ) : the_post(); ?>
    <h2><?php the_title(); ?></h2>
    <div><?php the_content(); ?></div>
<?php endwhile; endif; ?>

Unidad 4 · Sindicación de Contenido

Sindicación de Contenido

La sindicación de contenido es el mecanismo por el cual un sitio web pone a disposición su contenido de forma estandarizada para que sea redistribuido y consumido desde otras plataformas, aplicaciones o sitios web, sin necesidad de visitar directamente la fuente original. — Concepto web estándar · Really Simple Syndication (RSS)

La sindicación permite que el contenido "viaje" desde su fuente hacia los lectores, en lugar de que los lectores tengan que ir a buscar el contenido. Es el mecanismo que hay detrás de los lectores de noticias, las agregaciones de contenido y muchos sistemas de notificación.

RSS — Really Simple Syndication

RSS (versión 2.0, 2002) es el formato de sindicación más extendido. Es un archivo XML que una web publica automáticamente con sus últimas entradas o artículos. Cualquier lector RSS puede suscribirse a ese archivo y recibir las actualizaciones.

RSS 2.0 — Estructura de un feed XML

<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Blog de Tecnología</title>
    <link>https://www.ejemplo.com</link>
    <description>Artículos sobre tecnología e informática</description>
    <language>es-ES</language>
    <lastBuildDate>Mon, 20 Jan 2025 10:00:00 +0000</lastBuildDate>
    <atom:link href="https://ejemplo.com/feed" rel="self"/>

    <item>
      <title>Introducción a Big Data</title>
      <link>https://ejemplo.com/big-data</link>
      <description>Resumen completo del tema Big Data...</description>
      <author>profesor@ejemplo.com</author>
      <pubDate>Mon, 20 Jan 2025 09:00:00 +0000</pubDate>
      <guid>https://ejemplo.com/big-data</guid>
      <category>Tecnología</category>
    </item>

  </channel>
</rss>

Atom — La alternativa a RSS

Atom (RFC 4287, 2005) es otro formato de sindicación basado en XML, desarrollado como estándar IETF para corregir algunas ambigüedades de RSS. Es más formal y extensible. Ambos formatos coexisten; la mayoría de los lectores soportan los dos.

Característica	RSS 2.0	Atom 1.0
Organismo	Harvard / Dave Winer	IETF (RFC 4287)
Formato base	XML	XML
Elemento raíz	<rss> + <channel>	<feed>
Identificador único	<guid> (opcional)	<id> (obligatorio, URI)
Fecha	RFC 822	RFC 3339 (ISO 8601)
Contenido HTML	En <description>	<content type="html">
Extensibilidad	Namespaces informales	Namespaces formales
Adopción	Muy extendido	Google, Blogger, YouTube

Casos de uso de la sindicación

Lectores RSS
Aplicaciones como Feedly, Inoreader, NewsBlur o el antiguo Google Reader permiten suscribirse a cientos de fuentes y leer todo el contenido en un único lugar, sin visitar cada web individualmente.
Podcast
Los podcasts se distribuyen exactamente mediante RSS. El archivo RSS del podcast lista los episodios con sus archivos MP3. Plataformas como Spotify, Apple Podcasts o iVoox leen esos feeds para indexar y distribuir el contenido.
Agregadores de noticias
Google News, Flipboard, Yahoo News y similares usan sindicación para agregar contenido de miles de fuentes y presentarlo clasificado temáticamente.
Alertas automáticas
Herramientas como IFTTT o Zapier monitorizan feeds RSS y ejecutan acciones cuando aparece contenido nuevo: enviar email, publicar en redes sociales, crear tarea en Trello, etc.
Intranets y portales
Muchas intranets corporativas muestran widgets con las últimas noticias de fuentes externas relevantes para el sector, consumiendo feeds RSS automáticamente.

Unidad 5 · Gestión de Flujos de Trabajo

Sistemas de Gestión de Flujos de Trabajo (Workflow)

Un sistema de gestión de flujos de trabajo (Workflow Management System, WfMS) es una aplicación que define, ejecuta, supervisa y optimiza secuencias automatizadas o semi-automatizadas de tareas y procesos de negocio, asignando el trabajo correcto a las personas o sistemas correctos en el momento adecuado. — Workflow Management Coalition (WfMC)

El concepto de workflow (flujo de trabajo) hace referencia a la secuencia de pasos, personas y sistemas implicados en completar un proceso de negocio. Automatizar estos flujos elimina cuellos de botella, reduce errores manuales, garantiza el cumplimiento de procedimientos y aporta visibilidad sobre el estado de cada proceso.

Componentes de un sistema de workflow

Motor de workflow
El núcleo del sistema. Interpreta la definición del proceso, instancia nuevos casos, gestiona el estado de cada tarea, evalúa condiciones y transiciones, y notifica a los participantes.
Definición de proceso
Modelado formal del flujo de trabajo: actividades, roles, condiciones, plazos, excepciones. Se realiza con estándares como BPMN 2.0 (Business Process Model and Notation) o notaciones propietarias.
Lista de tareas
Cada participante ve su bandeja de entrada con las tareas pendientes asignadas. El usuario realiza la tarea y la envía al siguiente paso. Similar a una bandeja de correo, pero orientado a procesos.
Monitor de procesos
Visión global del estado de todas las instancias activas: qué procesos están en marcha, en qué paso, quién tiene la pelota, si hay retrasos. Crucial para la gestión y auditoría.
Gestor de roles
Asignación dinámica de tareas basada en roles (no usuarios individuales). Si un aprobador está de baja, el sistema puede reasignar o escalar automáticamente.

Tipos de workflow

🤖

Workflow de producción

Procesos altamente estructurados y repetitivos. Reglas bien definidas, poca variabilidad. Ej.: procesamiento de pedidos, facturación, alta de empleados.

🤝

Workflow colaborativo

Procesos donde la interacción humana y la toma de decisiones son centrales. Ej.: redacción y aprobación de documentos, proyectos creativos.

🗺️

Workflow ad hoc

Procesos no estructurados que se definen sobre la marcha según las necesidades del momento. Ej.: gestión de incidencias imprevistas.

⚙️

Workflow administrativo

Automatización de procesos de back-office: aprobación de gastos, solicitudes de vacaciones, contratos, compras. El más común en organizaciones.

BPMN 2.0 — Notación estándar

BPMN (Business Process Model and Notation) es el estándar ISO/IEC 19510 para modelar visualmente procesos de negocio. Permite que analistas de negocio y técnicos compartan un lenguaje común.

Elemento BPMN	Símbolo	Significado
Evento de inicio	⭕ Círculo fino	Punto donde comienza el proceso
Evento de fin	⏺ Círculo grueso	Punto donde termina el proceso
Tarea	▭ Rectángulo redondeado	Actividad realizada por una persona o sistema
Compuerta exclusiva (XOR)	◇ con X	Solo uno de los caminos posibles se ejecuta
Compuerta paralela (AND)	◇ con +	Todos los caminos se ejecutan en paralelo
Compuerta inclusiva (OR)	◇ con O	Uno o más caminos se ejecutan
Pool	Rectángulo grande	Participante del proceso (empresa, sistema)
Lane	Subregión del pool	Rol o departamento dentro del participante
Flujo de secuencia	→ Flecha sólida	Orden de ejecución entre elementos
Flujo de mensaje	⇢ Flecha discontinua	Comunicación entre pools distintos

Herramientas de Workflow / BPM

Herramienta	Tipo	Descripción
Camunda	Open source / SaaS	Motor BPMN/DMN de alto rendimiento. Muy usado en integraciones Java/microservicios.
Activiti / Flowable	Open source	Motor BPMN ligero. Embebible en aplicaciones Java.
Microsoft Power Automate	SaaS	Flujos low-code integrados en Microsoft 365. Muy accesible para usuarios de negocio.
Zapier / n8n	SaaS / Open source	Automatización de flujos entre aplicaciones web mediante conectores sin código.
Pega BPM	Comercial	Suite empresarial de BPM con IA, decisiones y CRM integrados.
Apache Airflow	Open source	Orquestador de pipelines de datos. Flujos de trabajo para ingeniería de datos.
ServiceNow	SaaS	Plataforma empresarial para ITSM, HRSD y flujos de operaciones corporativas.

Unidad 6 · Búsqueda de Información: Robots y Spiders

Robots, Spiders y Rastreadores Web

Un robot web (también llamado spider, crawler o bot) es un programa informático que navega automáticamente por la World Wide Web, siguiendo los enlaces de página en página, con el objetivo de recopilar información, indexar contenido o realizar comprobaciones automáticas. — W3C · Web Robots FAQ

Los robots web son los agentes invisibles que hacen posible la búsqueda en internet. Sin ellos, motores como Google, Bing o DuckDuckGo serían imposibles: ningún humano podría indexar manualmente los miles de millones de páginas que existen. Google despliega millones de instancias de su crawler (Googlebot) continuamente.

Cómo funciona un crawler

1

Semillas (seeds)

El crawler comienza con una lista de URLs de partida (semillas). Pueden ser URLs conocidas, sitemaps XML, o la lista de URLs ya indexadas en una visita anterior.

2

Descarga y análisis

El bot descarga el HTML de cada URL, analiza su contenido, extrae el texto, los metadatos y todos los enlaces (<a href>, <link>, etc.).

3

Extracción de enlaces

Todos los enlaces encontrados que no estén ya en la cola y no estén bloqueados por robots.txt se añaden a la cola de rastreo para ser visitados.

4

Priorización y planificación

No todas las URLs se rastrean con la misma frecuencia. La frecuencia depende del PageRank, la frecuencia de actualización del contenido, el crawl budget, y otros factores.

5

Indexación

El contenido recopilado se procesa y almacena en el índice invertido del motor de búsqueda: para cada palabra, la lista de páginas que la contienen y su contexto.

Tipos de robots / bots web

Tipo	Función	Ejemplos
Crawler de indexación	Navegar e indexar contenido para motores de búsqueda	Googlebot, Bingbot, Slurp (Yahoo), DuckDuckBot
Spider de archivado	Preservar copias históricas de páginas web	Internet Archive (Wayback Machine)
Bot de monitorización	Comprobar disponibilidad y rendimiento de sitios web	Pingdom, UptimeRobot, StatusCake
Scraper	Extraer datos estructurados de páginas web	Scrapy, BeautifulSoup, Selenium
Bot de precios	Monitorizar precios de productos en e-commerce	Bots de comparadores como Idealo
Checker de enlaces	Detectar enlaces rotos (404) en sitios web	Screaming Frog, Xenu, W3C Link Checker
Bot malicioso	Scraping agresivo, ataques, spam, credential stuffing	Bots de ataque DDoS, spambots
Bot de redes sociales	Obtener metadatos para compartición en redes sociales	Facebookbot (OGP), Twitterbot (Cards)

El archivo robots.txt

El archivo robots.txt es un estándar de exclusión de robots (Robots Exclusion Protocol). Es un archivo de texto plano que se coloca en la raíz del sitio web y le indica a los bots qué partes del sitio pueden o no pueden rastrear. No es un mecanismo de seguridad — cualquiera puede leerlo — sino una convención que los bots respetuosos obedecen.

robots.txt — Ejemplos completos

# Permitir todo a todos los bots
User-agent: *
Disallow:

# ─────────────────────────────────────────

# Bloquear todo a todos los bots
User-agent: *
Disallow: /

# ─────────────────────────────────────────

# Configuración típica de un sitio web
User-agent: *
Disallow: /admin/          # Panel de administración
Disallow: /private/        # Contenido privado
Disallow: /wp-login.php    # Login de WordPress
Disallow: /cart/           # Carrito de compra
Disallow: /checkout/       # Proceso de pago
Allow:    /admin/images/   # Excepción: imágenes del admin SÍ indexables

# Regla específica para Googlebot
User-agent: Googlebot
Crawl-delay: 10             # Esperar 10 segundos entre peticiones

# Bloquear completamente un bot agresivo
User-agent: BadBot
Disallow: /

# Indicar la ubicación del sitemap XML
Sitemap: https://www.ejemplo.com/sitemap.xml

Sitemap XML

El Sitemap XML es un archivo que lista todas las URLs de un sitio web junto con metadatos adicionales (fecha de modificación, frecuencia de cambio, prioridad). Ayuda a los crawlers a descubrir y priorizar el contenido de forma eficiente, especialmente en sitios con muchas páginas o con poca estructura de enlaces internos.

sitemap.xml — Formato estándar

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

  <url>
    <loc>https://ejemplo.com/</loc>
    <lastmod>2025-01-15</lastmod>
    <changefreq>weekly</changefreq>  <!-- always|hourly|daily|weekly|monthly|yearly|never -->
    <priority>1.0</priority>       <!-- 0.0 a 1.0, siendo 1.0 máxima prioridad -->
  </url>

  <url>
    <loc>https://ejemplo.com/articulo-1</loc>
    <lastmod>2025-01-10</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
  </url>

</urlset>

Unidad 7 · Posicionamiento y Buscadores (SEO)

Posicionamiento en Buscadores (SEO)

El SEO (Search Engine Optimization) es el conjunto de técnicas y estrategias aplicadas a un sitio web con el objetivo de mejorar su visibilidad y posicionamiento en los resultados orgánicos (no pagados) de los motores de búsqueda, para atraer más tráfico de calidad de forma sostenible. — Google Search Central · Definición industria

El SEO es fundamental porque el 92% del tráfico web comienza en un motor de búsqueda, y más del 70% de los clics recaen en los tres primeros resultados orgánicos. Aparecer en la primera página de Google para términos relevantes puede ser la diferencia entre el éxito y el fracaso de un negocio online.

Es importante distinguir entre SEO (posicionamiento orgánico, sin coste por clic) y SEM (Search Engine Marketing, que incluye publicidad de pago como Google Ads). Ambos buscan visibilidad en buscadores pero por vías distintas.

Cómo funciona un motor de búsqueda

1

Rastreo (Crawling)

Googlebot y otros bots rastrean continuamente la web, descubriendo páginas nuevas y actualizadas siguiendo los enlaces y leyendo sitemaps.

2

Indexación (Indexing)

El contenido rastreado se procesa, analiza y almacena en el índice invertido del buscador. Se extraen palabras clave, se evalúa la calidad y se detectan duplicados.

3

Clasificación (Ranking)

Cuando un usuario hace una búsqueda, el algoritmo evalúa cientos de factores para ordenar los resultados. Google usa más de 200 señales de ranking, incluyendo PageRank, relevancia, experiencia de usuario y E-E-A-T.

4

Presentación de resultados (SERP)

Los resultados se muestran en la página de resultados (SERP). Pueden incluir resultados orgánicos, anuncios, fragmentos destacados (featured snippets), mapas, imágenes, vídeos, respuestas directas (Knowledge Graph).

Las tres dimensiones del SEO

1. SEO On-Page (dentro de la página)

Todo lo que optimizas dentro del propio sitio web: contenido, estructura HTML, metadatos y arquitectura de la información.

Investigación de palabras clave (Keyword Research)
Identificar los términos y frases que el público objetivo usa para buscar. Herramientas: Google Keyword Planner, Semrush, Ahrefs, Ubersuggest. Se distingue entre head terms (genéricos, alto volumen, alta competencia) y long tail (específicos, menor volumen, mayor conversión).
Etiqueta <title>
El título de la página que aparece en la pestaña del navegador y como enlace azul en Google. Factor de ranking muy importante. Debe contener la palabra clave principal, ser único por página y tener entre 50–60 caracteres.
Meta description
Descripción que aparece bajo el título en los resultados de búsqueda. No es factor directo de ranking pero impacta el CTR (Click-Through Rate). Debe ser persuasiva, contener la keyword y tener entre 150–160 caracteres.
Etiquetas de encabezado H1–H6
Estructura jerárquica del contenido. Solo debe haber un H1 por página (el título principal, con la keyword primaria). Los H2–H4 organizan subtemas. Son señales claras de estructura para el crawler.
URLs amigables (Slug)
Las URLs deben ser cortas, descriptivas y contener la palabra clave: /seo-para-principiantes en vez de /page?id=4238. Usar guiones (-) en lugar de guiones bajos (_) o espacios.
Contenido de calidad (E-E-A-T)
Google evalúa la Experiencia, Expertise, Autoridad y Confianza (E-E-A-T) del contenido. El contenido debe ser original, extenso, actualizado, bien estructurado y útil para el usuario. "Thin content" (contenido escaso) penaliza.
Imágenes optimizadas
Atributo alt descriptivo con keywords, nombre de archivo descriptivo, compresión para reducir peso (WebP, AVIF), dimensiones correctas para no cargar imágenes más grandes de lo necesario.
Enlazado interno
Conectar páginas del mismo sitio con enlaces relevantes. Distribuye el "link equity", ayuda al crawler a descubrir páginas y mejora la experiencia de usuario manteniendo el tiempo en el sitio.
Datos estructurados (Schema.org)
Marcado en formato JSON-LD, Microdata o RDFa que ayuda a Google a entender el tipo de contenido: artículo, producto, receta, evento, FAQ, valoración… Permite obtener rich snippets en los resultados.

HTML — Metaetiquetas SEO esenciales en el <head>

<head>
  <!-- Título: visible en SERP y en la pestaña del navegador -->
  <title>Gestión Documental Empresarial | Guía Completa 2025</title>

  <!-- Meta description: snippet en SERP (no rankea pero mejora CTR) -->
  <meta name="description"
        content="Aprende todo sobre sistemas de gestión documental: SGD, DMS, normativas ISO y mejores prácticas para empresas.">

  <!-- Canonical: evita contenido duplicado indicando la URL preferida -->
  <link rel="canonical" href="https://ejemplo.com/gestion-documental/">

  <!-- Open Graph: cómo se comparte en redes sociales -->
  <meta property="og:title"       content="Gestión Documental Empresarial">
  <meta property="og:description"  content="Guía completa de SGD y documática.">
  <meta property="og:image"        content="https://ejemplo.com/img/sgd-portada.jpg">
  <meta property="og:url"          content="https://ejemplo.com/gestion-documental/">
  <meta property="og:type"         content="article">

  <!-- Twitter Card -->
  <meta name="twitter:card"        content="summary_large_image">
  <meta name="twitter:title"       content="Gestión Documental Empresarial">

  <!-- Instrucciones para robots en la página -->
  <meta name="robots" content="index, follow">
  <!-- noindex: no indexar | nofollow: no seguir enlaces | noarchive: no guardar caché -->

  <!-- Datos estructurados JSON-LD (Schema.org) -->
  <script type="application/ld+json">
  {
    "@context": "https://schema.org",
    "@type": "Article",
    "headline": "Gestión Documental Empresarial",
    "author": { "@type": "Person", "name": "Nombre Autor" },
    "datePublished": "2025-01-15",
    "image": "https://ejemplo.com/img/portada.jpg"
  }
  </script>
</head>

2. SEO Técnico

Aspectos de la infraestructura y el código del sitio que afectan al rastreo, indexación y rendimiento.

⚡

Core Web Vitals

LCP (carga principal <2.5s), FID/INP (interactividad <200ms), CLS (estabilidad visual <0.1). Métricas de Google que son factor de ranking desde 2021.

📱

Mobile-first

Google indexa primero la versión móvil del sitio. Diseño responsive obligatorio. La web debe ser completamente funcional en pantallas pequeñas.

🔐

HTTPS

Certificado SSL/TLS obligatorio. Google penaliza sitios HTTP desde 2014. Chrome marca los sitios HTTP como "No seguro". Factor de confianza y ranking.

🏗️

Arquitectura del sitio

Ninguna página importante debe estar a más de 3 clics de la portada. Estructura lógica en silos temáticos. Mapa del sitio claro.

🔗

Errores 404 y redirecciones

Los enlaces rotos dañan la experiencia de usuario y el crawl budget. Las redirecciones 301 (permanentes) transfieren el link equity. Evitar cadenas de redirección.

📋

Hreflang

Indica a Google el idioma y región de cada versión de una página. Esencial en sitios multiidioma para evitar que compitan entre sí.

3. SEO Off-Page (fuera de la página)

Señales externas al sitio web que influyen en su autoridad y posicionamiento.

Link Building (backlinks)
Los enlaces externos (backlinks) desde otros sitios son el factor de autoridad más importante en SEO. No todos los backlinks son iguales: un enlace de un sitio de alta autoridad (BBC, Wikipedia, .gov) vale incomparablemente más que cien enlaces de sitios de baja calidad. La calidad prevalece sobre la cantidad.
PageRank
Algoritmo original de Google (Larry Page, 1998). Calcula la autoridad de una página según la cantidad y calidad de los enlaces entrantes, de forma recursiva. Aunque Google lo dejó de publicar públicamente en 2016, sigue siendo el núcleo del sistema de ranking.
Señales sociales
Menciones en redes sociales, comparticiones, comentarios. Impacto indirecto: el contenido que se comparte mucho atrae backlinks naturales y genera tráfico que puede mejorar las señales de comportamiento.
Menciones de marca (Brand Mentions)
Google puede procesar menciones de la marca aunque no incluyan enlace (unlinked mentions). Una marca conocida y frecuentemente citada gana autoridad implícita.
Google My Business / Local SEO
Para negocios con presencia física, el SEO local optimiza la aparición en búsquedas geográficas y en Google Maps. El perfil de empresa en Google, las reseñas y las citas locales (NAP: Name, Address, Phone) son factores clave.

SEO Black Hat vs. White Hat

✅ White Hat SEO (Técnicas éticas)

Contenido original y de valor para el usuario
Link building natural mediante contenido compartible
Optimización técnica para mejorar la experiencia
Velocidad de carga y Core Web Vitals
Cumplimiento de las directrices de Google
Long-tail keywords y búsqueda semántica
Datos estructurados (Schema.org)

⛔ Black Hat SEO (Penalizable)

Keyword stuffing (densidad artificial de keywords)
Cloaking (mostrar contenido distinto a bots y humanos)
Granja de enlaces (comprar o intercambiar masivamente)
Contenido duplicado o scrapeado
Texto oculto (mismo color que el fondo)
Páginas de entrada artificiales (doorway pages)
Relleno de metadatos con keywords irrelevantes

Herramientas SEO esenciales

Herramienta	Tipo	Función principal
Google Search Console	Gratuita (Google)	Rendimiento en búsqueda, errores de indexación, cobertura, Core Web Vitals
Google Analytics / GA4	Gratuita (Google)	Analítica web: tráfico, conversiones, comportamiento de usuarios
PageSpeed Insights	Gratuita (Google)	Velocidad de carga y Core Web Vitals en móvil y escritorio
Screaming Frog SEO Spider	Freemium	Auditoría técnica del sitio: errores, metaetiquetas, enlaces, redirecciones
Semrush	De pago	Suite SEO completa: keywords, backlinks, análisis de competencia, auditoría
Ahrefs	De pago	Análisis de backlinks, research de keywords, análisis de competencia
Moz Pro	De pago	Métricas DA/PA, tracking de rankings, auditoría técnica
Yoast SEO	Plugin WordPress	Optimización on-page integrada en WordPress: metaetiquetas, legibilidad, Schema
Google Keyword Planner	Gratuita (Google Ads)	Volúmenes de búsqueda y competencia de palabras clave
Rich Results Test	Gratuita (Google)	Validar datos estructurados y comprobar elegibilidad para rich snippets

🎓 Resumen del Tema Completo

Documática

Disciplina que aplica la informática a la gestión documental
Metadatos: esenciales para recuperar documentos
OCR convierte documentos físicos a texto digital buscable
PDF/A es el formato estándar de archivado a largo plazo
5 fases del ciclo de vida: creación → uso → archivo → disposición

Sistemas de Gestión Documental

SGD = repositorio centralizado + control + trazabilidad
Funciones clave: captura, búsqueda, versiones, permisos, workflow
ISO 15489: norma internacional de Records Management
CMIS: API estándar de interoperabilidad entre SGD
Principales: SharePoint, Alfresco, M-Files, Documentum

Gestores de Contenido (CMS)

CMS separa contenido de presentación (diseño)
CMA (admin) + CDA (entrega) son sus dos componentes
WordPress = 43% de la web mundial
CMS headless: API-first para múltiples canales
ECM = CMS + SGD para uso empresarial

Sindicación (RSS / Atom)

RSS: XML que lista el contenido actualizado de un sitio
Permite suscribirse sin visitar la web original
Los podcasts se distribuyen mediante RSS
Atom (RFC 4287): más formal y extensible que RSS 2.0
Base de lectores, agregadores y alertas automáticas

Sistemas de Workflow

Automatizan secuencias de tareas y aprobaciones
BPMN 2.0: estándar ISO para modelar procesos visualmente
Tipos: producción, colaborativo, ad hoc, administrativo
El motor de workflow evalúa condiciones y transiciones
Herramientas: Camunda, Power Automate, n8n, Flowable

Robots y Spiders

Bots que rastrean la web automáticamente siguiendo enlaces
Crawl → Index → Rank: el pipeline de los buscadores
robots.txt: convención para indicar qué no rastrear
sitemap.xml: lista de URLs para facilitar el descubrimiento
Crawl budget: recursos que Google asigna a cada sitio

SEO

On-page: title, meta desc, H1, URLs, contenido, Schema.org
Técnico: Core Web Vitals, HTTPS, mobile-first, 301s
Off-page: backlinks (calidad > cantidad), PageRank
E-E-A-T: Experiencia, Expertise, Autoridad, Confianza
White hat = sostenible; Black hat = penalización por Google