Gestión de la Información · Tecnologías Documentales

Documática & Gestión Sistemas documentales, contenidos, flujos de trabajo, búsqueda y SEO

Guía completa estructurada como material de clase — desde la gestión electrónica de documentos hasta el posicionamiento en buscadores.

01 Documática 02 Sistemas SGD 03 CMS 04 Sindicación RSS 05 Workflow 06 Robots & Spiders 07 SEO
Unidad 1 · Documática

Documática: Gestión y Archivo Electrónico de Documentos

La Documática es la disciplina que estudia la aplicación de tecnologías informáticas y telemáticas a la gestión, producción, tratamiento, almacenamiento, archivo, recuperación y difusión de documentos en entornos organizacionales. Conjuga las técnicas documentales con la informática. — Concepto interdisciplinar entre Documentación e Informática

La Documática surge de la necesidad de gestionar de forma eficiente el creciente volumen de información documental generado por las organizaciones. Una empresa media genera decenas de miles de documentos al año: contratos, facturas, informes, correos, actas, certificados… Sin sistemas adecuados, este volumen se vuelve inmanejable.

La evolución es clara: del archivo físico (papel, carpetas, archivadores) al archivo electrónico (archivos digitales, bases de datos documentales) y, hoy, al archivo inteligente (búsqueda semántica, IA, metadatos automáticos).

Conceptos fundamentales

📌 Nota del profesor La Documática no es solo "guardar archivos en el ordenador". Implica establecer políticas de nomenclatura, clasificación, retención, acceso y destrucción controlada de documentos. Una organización sin política documental pierde tiempo buscando archivos, incumple normativas y pone en riesgo información confidencial.

Ciclo de vida del documento electrónico

Todo documento pasa por un ciclo de vida que la Documática debe gestionar en cada fase:

1

Creación / Captura

Generación del documento (redacción, digitalización, importación). Asignación de metadatos iniciales, clasificación y registro de entrada. Puede ser manual o automática (formularios, APIs, correo).

2

Revisión y aprobación

El documento circula por los revisores definidos en el flujo de trabajo. Se aplican versiones, comentarios y control de cambios. Un documento pendiente de firma no es un documento definitivo.

3

Distribución / Uso activo

El documento definitivo se distribuye a los usuarios autorizados. Reside en el archivo de gestión, con acceso frecuente. Se controlan permisos de lectura, escritura y descarga.

4

Almacenamiento / Archivo

Cuando el documento ya no es de uso cotidiano pasa al archivo intermedio o histórico. Se aplican políticas de retención (LOPD, ENS, normativas sectoriales). Garantías de integridad y autenticidad.

5

Disposición final

Según la política de retención: transferencia al archivo histórico, destrucción certificada, o conservación permanente. La destrucción debe documentarse para garantizar el cumplimiento normativo (GDPR, LOPD).

Unidad 2 · Sistemas de Gestión Documental

Sistemas de Gestión Documental (SGD)

Un Sistema de Gestión Documental (SGD) o Document Management System (DMS) es una aplicación informática diseñada para almacenar, organizar, controlar, distribuir y recuperar documentos electrónicos dentro de una organización, gestionando su ciclo de vida completo. — ISO 15489: Records Management

Un SGD no es simplemente un disco duro compartido o una carpeta en red. Es un sistema que aporta control, trazabilidad, seguridad y eficiencia a la gestión de la información documental. Es la diferencia entre "mis documentos en el escritorio" y un archivo corporativo gobernado.

Funciones y características de un SGD

🗂️

Captura e indexación

Ingesta de documentos desde múltiples fuentes (escáner, email, formularios, sistemas externos). Asignación automática o manual de metadatos e índices.

🔍

Búsqueda y recuperación

Búsqueda por metadatos, texto completo (full-text search), operadores booleanos, facetas, similitud semántica. El tiempo de recuperación es crítico.

🔒

Control de acceso

Gestión de permisos por usuario, rol o grupo. Quién puede ver, editar, descargar, eliminar o compartir cada documento. Auditoría de accesos.

📋

Control de versiones

Histórico completo de todas las versiones de un documento. Check-in / check-out para edición exclusiva. Comparación entre versiones.

🔄

Flujos de trabajo

Automatización de procesos de revisión, aprobación y firma. Notificaciones, plazos y escalado. Integración con el módulo de workflow.

📦

Gestión del ciclo de vida

Aplicación automática de políticas de retención y disposición. Transferencia a archivo histórico o destrucción certificada según normativa.

🔗

Integración

APIs para conectar con ERP (SAP), CRM, sistemas de RR.HH., portales web, Office, correo electrónico. El SGD no es una isla.

📊

Auditoría y compliance

Registro inmutable de quién accedió, qué hizo y cuándo. Informes de cumplimiento para GDPR, ENS, ISO 27001, SOX.

Principales SGD del mercado

ProductoTipoEnfoqueCaracterísticas destacadas
Microsoft SharePointComercialCorporativoIntegración Office 365, flujos Power Automate, búsqueda avanzada
AlfrescoOpen sourceEmpresarialCMIS estándar, BPM integrado, gran comunidad, escalable
OpenText DocumentumComercialGran empresaMuy maduro, gobernanza del contenido, sector legal y farmacéutico
M-FilesComercialPyme / empresaClasificación basada en metadatos (no carpetas), IA integrada
Documentos de GoogleSaaSColaborativoEdición simultánea, versiones automáticas, integrado en Workspace
LogicalDOCOpen sourcePymeInterfaz sencilla, OCR integrado, REST API
NuxeoOpen sourceEmpresarialArquitectura moderna, bajo-código, headless content

Normas y estándares relevantes

Unidad 3 · Gestores de Contenidos

Gestores de Contenidos (CMS)

Un Sistema de Gestión de Contenidos (CMS, Content Management System) es una aplicación que permite crear, gestionar, organizar y publicar contenido digital en un sitio web sin necesidad de conocimientos técnicos avanzados de programación, separando el contenido de su presentación. — Concepto estándar de la industria web

La diferencia fundamental respecto a un SGD es el destino del contenido: un SGD gestiona documentos internos de la organización; un CMS gestiona contenido destinado a publicarse en canales digitales (web, aplicaciones móviles, portales). Sin embargo, la frontera se difumina en los CMS empresariales modernos.

Componentes de un CMS

✏️

CMA — Área de gestión

Content Management Application. La interfaz de administración donde los editores crean, editan, organizan y publican el contenido. El "backend".

🌐

CDA — Área de entrega

Content Delivery Application. El motor que toma el contenido y lo presenta al usuario final. Gestiona plantillas, temas, caché y renderizado. El "frontend".

🗄️

Base de datos

Almacena el contenido, metadatos, configuración y usuarios. MySQL, PostgreSQL o MongoDB son los más frecuentes.

🧩

Sistema de plantillas

Separa el diseño visual del contenido. Permite cambiar la apariencia sin tocar el contenido. Twig, Blade, Handlebars, Liquid son motores comunes.

🔌

Plugins / módulos

Extensiones que añaden funcionalidades sin modificar el núcleo: SEO, e-commerce, galería, formularios, redes sociales, analítica.

👤

Gestión de usuarios

Roles y permisos: administrador, editor, autor, colaborador, suscriptor. Control de quién puede crear, editar, publicar o eliminar contenido.

Tipos de CMS

TipoDescripciónEjemplosUso típico
CMS tradicional (acoplado) Backend y frontend integrados. El CMS genera y sirve directamente las páginas HTML. WordPress, Joomla, Drupal Blogs, webs corporativas, portales
CMS headless Solo backend (repositorio de contenido). El contenido se sirve vía API (REST/GraphQL) a cualquier frontend. Contentful, Strapi, Sanity, Ghost Omnicanal: web + app + IoT
CMS híbrido Combina capacidades headless con la posibilidad de renderizado tradicional. Directus, Payload, Craft CMS Proyectos complejos con múltiples canales
ECM (Enterprise Content Management) Gestión de contenido empresarial que fusiona CMS y SGD: documentos internos + publicación web. SharePoint, OpenText, IBM FileNet Grandes organizaciones, intranets
CMS e-commerce CMS especializado en tiendas online: catálogos, carrito, pagos, inventario. Magento, PrestaShop, WooCommerce Tiendas online de todo tamaño
DAM (Digital Asset Management) Gestión de activos digitales: imágenes, vídeo, audio, assets de marketing. Bynder, Brandfolder, Cloudinary Equipos de marketing y diseño
💡 WordPress domina el mercado WordPress gestiona más del 43% de todos los sitios web del mundo (2024). Su éxito se debe a la combinación de facilidad de uso, enorme ecosistema de plugins y temas, y comunidad global. Drupal es preferido por administraciones públicas (gov.uk, whitehouse.gov). Joomla ocupa un espacio intermedio con gran comunidad latinoamericana.

Estructura básica de WordPress (ejemplo de CMS)

WordPress — Estructura de directorios y archivo de tema
// Estructura de directorios de WordPress
/wordpress/
├── wp-admin/          // Panel de administración
├── wp-includes/       // Core de WordPress
└── wp-content/
    ├── themes/        // Temas (diseño / presentación)
    │   └── mi-tema/
    │       ├── style.css      // Cabecera del tema
    │       ├── functions.php  // Funcionalidades del tema
    │       ├── index.php      // Plantilla principal
    │       ├── single.php     // Plantilla artículo individual
    │       └── header.php     // Cabecera HTML
    ├── plugins/       // Extensiones de funcionalidad
    │   ├── yoast-seo/
    │   └── woocommerce/
    └── uploads/       // Archivos multimedia subidos

// Loop de WordPress (cómo se muestra el contenido)
<?php if ( have_posts() ) : while ( have_posts() ) : the_post(); ?>
    <h2><?php the_title(); ?></h2>
    <div><?php the_content(); ?></div>
<?php endwhile; endif; ?>
Unidad 4 · Sindicación de Contenido

Sindicación de Contenido

La sindicación de contenido es el mecanismo por el cual un sitio web pone a disposición su contenido de forma estandarizada para que sea redistribuido y consumido desde otras plataformas, aplicaciones o sitios web, sin necesidad de visitar directamente la fuente original. — Concepto web estándar · Really Simple Syndication (RSS)

La sindicación permite que el contenido "viaje" desde su fuente hacia los lectores, en lugar de que los lectores tengan que ir a buscar el contenido. Es el mecanismo que hay detrás de los lectores de noticias, las agregaciones de contenido y muchos sistemas de notificación.

RSS — Really Simple Syndication

RSS (versión 2.0, 2002) es el formato de sindicación más extendido. Es un archivo XML que una web publica automáticamente con sus últimas entradas o artículos. Cualquier lector RSS puede suscribirse a ese archivo y recibir las actualizaciones.

RSS 2.0 — Estructura de un feed XML
<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Blog de Tecnología</title>
    <link>https://www.ejemplo.com</link>
    <description>Artículos sobre tecnología e informática</description>
    <language>es-ES</language>
    <lastBuildDate>Mon, 20 Jan 2025 10:00:00 +0000</lastBuildDate>
    <atom:link href="https://ejemplo.com/feed" rel="self"/>

    <item>
      <title>Introducción a Big Data</title>
      <link>https://ejemplo.com/big-data</link>
      <description>Resumen completo del tema Big Data...</description>
      <author>profesor@ejemplo.com</author>
      <pubDate>Mon, 20 Jan 2025 09:00:00 +0000</pubDate>
      <guid>https://ejemplo.com/big-data</guid>
      <category>Tecnología</category>
    </item>

  </channel>
</rss>

Atom — La alternativa a RSS

Atom (RFC 4287, 2005) es otro formato de sindicación basado en XML, desarrollado como estándar IETF para corregir algunas ambigüedades de RSS. Es más formal y extensible. Ambos formatos coexisten; la mayoría de los lectores soportan los dos.

CaracterísticaRSS 2.0Atom 1.0
OrganismoHarvard / Dave WinerIETF (RFC 4287)
Formato baseXMLXML
Elemento raíz<rss> + <channel><feed>
Identificador único<guid> (opcional)<id> (obligatorio, URI)
FechaRFC 822RFC 3339 (ISO 8601)
Contenido HTMLEn <description><content type="html">
ExtensibilidadNamespaces informalesNamespaces formales
AdopciónMuy extendidoGoogle, Blogger, YouTube

Casos de uso de la sindicación

Unidad 5 · Gestión de Flujos de Trabajo

Sistemas de Gestión de Flujos de Trabajo (Workflow)

Un sistema de gestión de flujos de trabajo (Workflow Management System, WfMS) es una aplicación que define, ejecuta, supervisa y optimiza secuencias automatizadas o semi-automatizadas de tareas y procesos de negocio, asignando el trabajo correcto a las personas o sistemas correctos en el momento adecuado. — Workflow Management Coalition (WfMC)

El concepto de workflow (flujo de trabajo) hace referencia a la secuencia de pasos, personas y sistemas implicados en completar un proceso de negocio. Automatizar estos flujos elimina cuellos de botella, reduce errores manuales, garantiza el cumplimiento de procedimientos y aporta visibilidad sobre el estado de cada proceso.

Componentes de un sistema de workflow

Tipos de workflow

🤖

Workflow de producción

Procesos altamente estructurados y repetitivos. Reglas bien definidas, poca variabilidad. Ej.: procesamiento de pedidos, facturación, alta de empleados.

🤝

Workflow colaborativo

Procesos donde la interacción humana y la toma de decisiones son centrales. Ej.: redacción y aprobación de documentos, proyectos creativos.

🗺️

Workflow ad hoc

Procesos no estructurados que se definen sobre la marcha según las necesidades del momento. Ej.: gestión de incidencias imprevistas.

⚙️

Workflow administrativo

Automatización de procesos de back-office: aprobación de gastos, solicitudes de vacaciones, contratos, compras. El más común en organizaciones.

BPMN 2.0 — Notación estándar

BPMN (Business Process Model and Notation) es el estándar ISO/IEC 19510 para modelar visualmente procesos de negocio. Permite que analistas de negocio y técnicos compartan un lenguaje común.

Elemento BPMNSímboloSignificado
Evento de inicio⭕ Círculo finoPunto donde comienza el proceso
Evento de fin⏺ Círculo gruesoPunto donde termina el proceso
Tarea▭ Rectángulo redondeadoActividad realizada por una persona o sistema
Compuerta exclusiva (XOR)◇ con XSolo uno de los caminos posibles se ejecuta
Compuerta paralela (AND)◇ con +Todos los caminos se ejecutan en paralelo
Compuerta inclusiva (OR)◇ con OUno o más caminos se ejecutan
PoolRectángulo grandeParticipante del proceso (empresa, sistema)
LaneSubregión del poolRol o departamento dentro del participante
Flujo de secuencia→ Flecha sólidaOrden de ejecución entre elementos
Flujo de mensaje⇢ Flecha discontinuaComunicación entre pools distintos

Herramientas de Workflow / BPM

HerramientaTipoDescripción
CamundaOpen source / SaaSMotor BPMN/DMN de alto rendimiento. Muy usado en integraciones Java/microservicios.
Activiti / FlowableOpen sourceMotor BPMN ligero. Embebible en aplicaciones Java.
Microsoft Power AutomateSaaSFlujos low-code integrados en Microsoft 365. Muy accesible para usuarios de negocio.
Zapier / n8nSaaS / Open sourceAutomatización de flujos entre aplicaciones web mediante conectores sin código.
Pega BPMComercialSuite empresarial de BPM con IA, decisiones y CRM integrados.
Apache AirflowOpen sourceOrquestador de pipelines de datos. Flujos de trabajo para ingeniería de datos.
ServiceNowSaaSPlataforma empresarial para ITSM, HRSD y flujos de operaciones corporativas.
Unidad 6 · Búsqueda de Información: Robots y Spiders

Robots, Spiders y Rastreadores Web

Un robot web (también llamado spider, crawler o bot) es un programa informático que navega automáticamente por la World Wide Web, siguiendo los enlaces de página en página, con el objetivo de recopilar información, indexar contenido o realizar comprobaciones automáticas. — W3C · Web Robots FAQ

Los robots web son los agentes invisibles que hacen posible la búsqueda en internet. Sin ellos, motores como Google, Bing o DuckDuckGo serían imposibles: ningún humano podría indexar manualmente los miles de millones de páginas que existen. Google despliega millones de instancias de su crawler (Googlebot) continuamente.

Cómo funciona un crawler

1

Semillas (seeds)

El crawler comienza con una lista de URLs de partida (semillas). Pueden ser URLs conocidas, sitemaps XML, o la lista de URLs ya indexadas en una visita anterior.

2

Descarga y análisis

El bot descarga el HTML de cada URL, analiza su contenido, extrae el texto, los metadatos y todos los enlaces (<a href>, <link>, etc.).

3

Extracción de enlaces

Todos los enlaces encontrados que no estén ya en la cola y no estén bloqueados por robots.txt se añaden a la cola de rastreo para ser visitados.

4

Priorización y planificación

No todas las URLs se rastrean con la misma frecuencia. La frecuencia depende del PageRank, la frecuencia de actualización del contenido, el crawl budget, y otros factores.

5

Indexación

El contenido recopilado se procesa y almacena en el índice invertido del motor de búsqueda: para cada palabra, la lista de páginas que la contienen y su contexto.

Tipos de robots / bots web

TipoFunciónEjemplos
Crawler de indexaciónNavegar e indexar contenido para motores de búsquedaGooglebot, Bingbot, Slurp (Yahoo), DuckDuckBot
Spider de archivadoPreservar copias históricas de páginas webInternet Archive (Wayback Machine)
Bot de monitorizaciónComprobar disponibilidad y rendimiento de sitios webPingdom, UptimeRobot, StatusCake
ScraperExtraer datos estructurados de páginas webScrapy, BeautifulSoup, Selenium
Bot de preciosMonitorizar precios de productos en e-commerceBots de comparadores como Idealo
Checker de enlacesDetectar enlaces rotos (404) en sitios webScreaming Frog, Xenu, W3C Link Checker
Bot maliciosoScraping agresivo, ataques, spam, credential stuffingBots de ataque DDoS, spambots
Bot de redes socialesObtener metadatos para compartición en redes socialesFacebookbot (OGP), Twitterbot (Cards)

El archivo robots.txt

El archivo robots.txt es un estándar de exclusión de robots (Robots Exclusion Protocol). Es un archivo de texto plano que se coloca en la raíz del sitio web y le indica a los bots qué partes del sitio pueden o no pueden rastrear. No es un mecanismo de seguridad — cualquiera puede leerlo — sino una convención que los bots respetuosos obedecen.

robots.txt — Ejemplos completos
# Permitir todo a todos los bots
User-agent: *
Disallow:

# ─────────────────────────────────────────

# Bloquear todo a todos los bots
User-agent: *
Disallow: /

# ─────────────────────────────────────────

# Configuración típica de un sitio web
User-agent: *
Disallow: /admin/          # Panel de administración
Disallow: /private/        # Contenido privado
Disallow: /wp-login.php    # Login de WordPress
Disallow: /cart/           # Carrito de compra
Disallow: /checkout/       # Proceso de pago
Allow:    /admin/images/   # Excepción: imágenes del admin SÍ indexables

# Regla específica para Googlebot
User-agent: Googlebot
Crawl-delay: 10             # Esperar 10 segundos entre peticiones

# Bloquear completamente un bot agresivo
User-agent: BadBot
Disallow: /

# Indicar la ubicación del sitemap XML
Sitemap: https://www.ejemplo.com/sitemap.xml

Sitemap XML

El Sitemap XML es un archivo que lista todas las URLs de un sitio web junto con metadatos adicionales (fecha de modificación, frecuencia de cambio, prioridad). Ayuda a los crawlers a descubrir y priorizar el contenido de forma eficiente, especialmente en sitios con muchas páginas o con poca estructura de enlaces internos.

sitemap.xml — Formato estándar
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

  <url>
    <loc>https://ejemplo.com/</loc>
    <lastmod>2025-01-15</lastmod>
    <changefreq>weekly</changefreq>  <!-- always|hourly|daily|weekly|monthly|yearly|never -->
    <priority>1.0</priority>       <!-- 0.0 a 1.0, siendo 1.0 máxima prioridad -->
  </url>

  <url>
    <loc>https://ejemplo.com/articulo-1</loc>
    <lastmod>2025-01-10</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
  </url>

</urlset>
Unidad 7 · Posicionamiento y Buscadores (SEO)

Posicionamiento en Buscadores (SEO)

El SEO (Search Engine Optimization) es el conjunto de técnicas y estrategias aplicadas a un sitio web con el objetivo de mejorar su visibilidad y posicionamiento en los resultados orgánicos (no pagados) de los motores de búsqueda, para atraer más tráfico de calidad de forma sostenible. — Google Search Central · Definición industria

El SEO es fundamental porque el 92% del tráfico web comienza en un motor de búsqueda, y más del 70% de los clics recaen en los tres primeros resultados orgánicos. Aparecer en la primera página de Google para términos relevantes puede ser la diferencia entre el éxito y el fracaso de un negocio online.

Es importante distinguir entre SEO (posicionamiento orgánico, sin coste por clic) y SEM (Search Engine Marketing, que incluye publicidad de pago como Google Ads). Ambos buscan visibilidad en buscadores pero por vías distintas.

Cómo funciona un motor de búsqueda

1

Rastreo (Crawling)

Googlebot y otros bots rastrean continuamente la web, descubriendo páginas nuevas y actualizadas siguiendo los enlaces y leyendo sitemaps.

2

Indexación (Indexing)

El contenido rastreado se procesa, analiza y almacena en el índice invertido del buscador. Se extraen palabras clave, se evalúa la calidad y se detectan duplicados.

3

Clasificación (Ranking)

Cuando un usuario hace una búsqueda, el algoritmo evalúa cientos de factores para ordenar los resultados. Google usa más de 200 señales de ranking, incluyendo PageRank, relevancia, experiencia de usuario y E-E-A-T.

4

Presentación de resultados (SERP)

Los resultados se muestran en la página de resultados (SERP). Pueden incluir resultados orgánicos, anuncios, fragmentos destacados (featured snippets), mapas, imágenes, vídeos, respuestas directas (Knowledge Graph).

Las tres dimensiones del SEO

1. SEO On-Page (dentro de la página)

Todo lo que optimizas dentro del propio sitio web: contenido, estructura HTML, metadatos y arquitectura de la información.

HTML — Metaetiquetas SEO esenciales en el <head>
<head>
  <!-- Título: visible en SERP y en la pestaña del navegador -->
  <title>Gestión Documental Empresarial | Guía Completa 2025</title>

  <!-- Meta description: snippet en SERP (no rankea pero mejora CTR) -->
  <meta name="description"
        content="Aprende todo sobre sistemas de gestión documental: SGD, DMS, normativas ISO y mejores prácticas para empresas.">

  <!-- Canonical: evita contenido duplicado indicando la URL preferida -->
  <link rel="canonical" href="https://ejemplo.com/gestion-documental/">

  <!-- Open Graph: cómo se comparte en redes sociales -->
  <meta property="og:title"       content="Gestión Documental Empresarial">
  <meta property="og:description"  content="Guía completa de SGD y documática.">
  <meta property="og:image"        content="https://ejemplo.com/img/sgd-portada.jpg">
  <meta property="og:url"          content="https://ejemplo.com/gestion-documental/">
  <meta property="og:type"         content="article">

  <!-- Twitter Card -->
  <meta name="twitter:card"        content="summary_large_image">
  <meta name="twitter:title"       content="Gestión Documental Empresarial">

  <!-- Instrucciones para robots en la página -->
  <meta name="robots" content="index, follow">
  <!-- noindex: no indexar | nofollow: no seguir enlaces | noarchive: no guardar caché -->

  <!-- Datos estructurados JSON-LD (Schema.org) -->
  <script type="application/ld+json">
  {
    "@context": "https://schema.org",
    "@type": "Article",
    "headline": "Gestión Documental Empresarial",
    "author": { "@type": "Person", "name": "Nombre Autor" },
    "datePublished": "2025-01-15",
    "image": "https://ejemplo.com/img/portada.jpg"
  }
  </script>
</head>

2. SEO Técnico

Aspectos de la infraestructura y el código del sitio que afectan al rastreo, indexación y rendimiento.

Core Web Vitals

LCP (carga principal <2.5s), FID/INP (interactividad <200ms), CLS (estabilidad visual <0.1). Métricas de Google que son factor de ranking desde 2021.

📱

Mobile-first

Google indexa primero la versión móvil del sitio. Diseño responsive obligatorio. La web debe ser completamente funcional en pantallas pequeñas.

🔐

HTTPS

Certificado SSL/TLS obligatorio. Google penaliza sitios HTTP desde 2014. Chrome marca los sitios HTTP como "No seguro". Factor de confianza y ranking.

🏗️

Arquitectura del sitio

Ninguna página importante debe estar a más de 3 clics de la portada. Estructura lógica en silos temáticos. Mapa del sitio claro.

🔗

Errores 404 y redirecciones

Los enlaces rotos dañan la experiencia de usuario y el crawl budget. Las redirecciones 301 (permanentes) transfieren el link equity. Evitar cadenas de redirección.

📋

Hreflang

Indica a Google el idioma y región de cada versión de una página. Esencial en sitios multiidioma para evitar que compitan entre sí.

3. SEO Off-Page (fuera de la página)

Señales externas al sitio web que influyen en su autoridad y posicionamiento.

SEO Black Hat vs. White Hat

✅ White Hat SEO (Técnicas éticas)

  • Contenido original y de valor para el usuario
  • Link building natural mediante contenido compartible
  • Optimización técnica para mejorar la experiencia
  • Velocidad de carga y Core Web Vitals
  • Cumplimiento de las directrices de Google
  • Long-tail keywords y búsqueda semántica
  • Datos estructurados (Schema.org)

⛔ Black Hat SEO (Penalizable)

  • Keyword stuffing (densidad artificial de keywords)
  • Cloaking (mostrar contenido distinto a bots y humanos)
  • Granja de enlaces (comprar o intercambiar masivamente)
  • Contenido duplicado o scrapeado
  • Texto oculto (mismo color que el fondo)
  • Páginas de entrada artificiales (doorway pages)
  • Relleno de metadatos con keywords irrelevantes

Herramientas SEO esenciales

HerramientaTipoFunción principal
Google Search ConsoleGratuita (Google)Rendimiento en búsqueda, errores de indexación, cobertura, Core Web Vitals
Google Analytics / GA4Gratuita (Google)Analítica web: tráfico, conversiones, comportamiento de usuarios
PageSpeed InsightsGratuita (Google)Velocidad de carga y Core Web Vitals en móvil y escritorio
Screaming Frog SEO SpiderFreemiumAuditoría técnica del sitio: errores, metaetiquetas, enlaces, redirecciones
SemrushDe pagoSuite SEO completa: keywords, backlinks, análisis de competencia, auditoría
AhrefsDe pagoAnálisis de backlinks, research de keywords, análisis de competencia
Moz ProDe pagoMétricas DA/PA, tracking de rankings, auditoría técnica
Yoast SEOPlugin WordPressOptimización on-page integrada en WordPress: metaetiquetas, legibilidad, Schema
Google Keyword PlannerGratuita (Google Ads)Volúmenes de búsqueda y competencia de palabras clave
Rich Results TestGratuita (Google)Validar datos estructurados y comprobar elegibilidad para rich snippets

🎓 Resumen del Tema Completo

Documática

  • Disciplina que aplica la informática a la gestión documental
  • Metadatos: esenciales para recuperar documentos
  • OCR convierte documentos físicos a texto digital buscable
  • PDF/A es el formato estándar de archivado a largo plazo
  • 5 fases del ciclo de vida: creación → uso → archivo → disposición

Sistemas de Gestión Documental

  • SGD = repositorio centralizado + control + trazabilidad
  • Funciones clave: captura, búsqueda, versiones, permisos, workflow
  • ISO 15489: norma internacional de Records Management
  • CMIS: API estándar de interoperabilidad entre SGD
  • Principales: SharePoint, Alfresco, M-Files, Documentum

Gestores de Contenido (CMS)

  • CMS separa contenido de presentación (diseño)
  • CMA (admin) + CDA (entrega) son sus dos componentes
  • WordPress = 43% de la web mundial
  • CMS headless: API-first para múltiples canales
  • ECM = CMS + SGD para uso empresarial

Sindicación (RSS / Atom)

  • RSS: XML que lista el contenido actualizado de un sitio
  • Permite suscribirse sin visitar la web original
  • Los podcasts se distribuyen mediante RSS
  • Atom (RFC 4287): más formal y extensible que RSS 2.0
  • Base de lectores, agregadores y alertas automáticas

Sistemas de Workflow

  • Automatizan secuencias de tareas y aprobaciones
  • BPMN 2.0: estándar ISO para modelar procesos visualmente
  • Tipos: producción, colaborativo, ad hoc, administrativo
  • El motor de workflow evalúa condiciones y transiciones
  • Herramientas: Camunda, Power Automate, n8n, Flowable

Robots y Spiders

  • Bots que rastrean la web automáticamente siguiendo enlaces
  • Crawl → Index → Rank: el pipeline de los buscadores
  • robots.txt: convención para indicar qué no rastrear
  • sitemap.xml: lista de URLs para facilitar el descubrimiento
  • Crawl budget: recursos que Google asigna a cada sitio

SEO

  • On-page: title, meta desc, H1, URLs, contenido, Schema.org
  • Técnico: Core Web Vitals, HTTPS, mobile-first, 301s
  • Off-page: backlinks (calidad > cantidad), PageRank
  • E-E-A-T: Experiencia, Expertise, Autoridad, Confianza
  • White hat = sostenible; Black hat = penalización por Google