[PLANTILLA] Plan de Continuidad de Negocio (BCP) y Recuperación ante Desastres (DRP)

Bases:

ETSI EN 319 401 §7.11 (Business Continuity Management).

ISO/IEC 27001 §A.5.29-30, §A.8.13-14.

eIDAS art. 19.1 (medidas para evitar y reducir impacto de incidentes).

1. Identificación del documento

Campo	Valor
Nombre	BCP/DRP de [Nombre del QTSP]
Versión	TBD
Fecha	TBD
Aprobado por	Comité de Dirección
Próxima revisión	T+12m

2. Alcance

Servicios cubiertos: QTSA (TSU-1, TSU-2) y QERDS (todos los componentes). Sites: SITE-01 (primario) y SITE-02 (DR).

3. Análisis de impacto de negocio (BIA)

3.1 Procesos críticos

Proceso	RTO objetivo	RPO objetivo	Criticidad
Emisión de TSTs (TSA)	≤ 1h	~ 0	Crítico
Verificación de TSTs	≤ 1h	—	Crítico
Recepción de envíos QERDS	≤ 4h	≤ 5 min	Crítico
Entrega de envíos QERDS	≤ 4h	≤ 5 min	Crítico
Acceso a evidencias QERDS históricas	≤ 24h	—	Alto
Frontend web público	≤ 1h	—	Alto
Capacidad de notificación 24h al supervisor	≤ 1h	—	Crítico (regulatorio)
Backups y archivado	≤ 24h	≤ 24h	Medio

3.2 Dependencias

HSMs (KEY-01, 02 en TSA; KEY-03 en QERDS).
Fuente UTC (GNSS + NTP).
Conectividad a Internet.
Datacenter primario y DR.

4. Estrategias de continuidad

4.1 Resilencia integrada

Cluster activo-activo TSA entre SITE-01 y SITE-02.
Replicación de evidencias QERDS en tiempo real.
HSM redundante en cada site.
Múltiples fuentes UTC.

4.2 Recuperación ante desastre

DR site en SITE-02 con activación manual o automatizada según escenario.
Procedimiento de failover documentado y probado.
Tiempos de activación ensayados anualmente.

4.3 Backup

Frecuencia: replicación continua + snapshots cada X horas + backup completo diario.
Almacenamiento: site separado + offline para snapshots críticos.
Retención: alineada con Ley 6/2020 §9.3.a (15 años).
Cifrado: AES-256.

5. Escenarios y procedimientos

Escenario	RTO	Procedimiento
Caída de SITE-01 (datacenter primario)	4h	Failover a SITE-02.
Caída de un HSM	1h	Activar HSM redundante.
Compromiso de clave de TSU	inmediato	Revocación de cert. + activación de TSU alternativa con nueva clave.
Pérdida de conectividad	4h	Activar conectividad secundaria.
Pérdida de fuente UTC	24h	Operar con fuente secundaria + investigar. Si ambas fallan, parar servicio TSA.
Ransomware / ciberataque	variable	Aislamiento, recuperación desde backup limpio, notificación 24h.
Pandemia / pérdida de personal	semanas	Plan de teletrabajo + roles backup.

6. Equipos de respuesta

Equipo	Líder	Backup	Responsabilidad
Crisis Management Team	Director General	CISO	Toma de decisiones
Equipo Técnico	CTO	Operaciones lead	Ejecución técnica
Equipo de Comunicación	Comunicación	Legal	Comunicación interna y externa
Equipo Legal	Legal	DPO	Cumplimiento normativo durante crisis

7. Pruebas

Tabletop anual.
Failover real anual.
Simulacro de notificación 24h al supervisor anual.
Pruebas de restauración desde backup trimestrales.

8. Métricas

RTO objetivo vs. RTO medido en última prueba.
RPO objetivo vs. RPO medido.
Nº de incidentes activados por nivel de severidad.
Tiempo medio de respuesta.

9. Histórico de versiones

Versión	Fecha	Cambios	Aprobador
v0.1	TBD	Borrador inicial	—