[PLANTILLA] Plan de Continuidad de Negocio (BCP) y Recuperación ante Desastres (DRP)
Bases:
- ETSI EN 319 401 §7.11 (Business Continuity Management).
- ISO/IEC 27001 §A.5.29-30, §A.8.13-14.
- eIDAS art. 19.1 (medidas para evitar y reducir impacto de incidentes).
1. Identificación del documento
| Campo | Valor |
|---|---|
| Nombre | BCP/DRP de [Nombre del QTSP] |
| Versión | TBD |
| Fecha | TBD |
| Aprobado por | Comité de Dirección |
| Próxima revisión | T+12m |
2. Alcance
Servicios cubiertos: QTSA (TSU-1, TSU-2) y QERDS (todos los componentes). Sites: SITE-01 (primario) y SITE-02 (DR).
3. Análisis de impacto de negocio (BIA)
3.1 Procesos críticos
| Proceso | RTO objetivo | RPO objetivo | Criticidad |
|---|---|---|---|
| Emisión de TSTs (TSA) | ≤ 1h | ~ 0 | Crítico |
| Verificación de TSTs | ≤ 1h | — | Crítico |
| Recepción de envíos QERDS | ≤ 4h | ≤ 5 min | Crítico |
| Entrega de envíos QERDS | ≤ 4h | ≤ 5 min | Crítico |
| Acceso a evidencias QERDS históricas | ≤ 24h | — | Alto |
| Frontend web público | ≤ 1h | — | Alto |
| Capacidad de notificación 24h al supervisor | ≤ 1h | — | Crítico (regulatorio) |
| Backups y archivado | ≤ 24h | ≤ 24h | Medio |
3.2 Dependencias
- HSMs (KEY-01, 02 en TSA; KEY-03 en QERDS).
- Fuente UTC (GNSS + NTP).
- Conectividad a Internet.
- Datacenter primario y DR.
4. Estrategias de continuidad
4.1 Resilencia integrada
- Cluster activo-activo TSA entre SITE-01 y SITE-02.
- Replicación de evidencias QERDS en tiempo real.
- HSM redundante en cada site.
- Múltiples fuentes UTC.
4.2 Recuperación ante desastre
- DR site en SITE-02 con activación manual o automatizada según escenario.
- Procedimiento de failover documentado y probado.
- Tiempos de activación ensayados anualmente.
4.3 Backup
- Frecuencia: replicación continua + snapshots cada X horas + backup completo diario.
- Almacenamiento: site separado + offline para snapshots críticos.
- Retención: alineada con Ley 6/2020 §9.3.a (15 años).
- Cifrado: AES-256.
5. Escenarios y procedimientos
| Escenario | RTO | Procedimiento |
|---|---|---|
| Caída de SITE-01 (datacenter primario) | 4h | Failover a SITE-02. |
| Caída de un HSM | 1h | Activar HSM redundante. |
| Compromiso de clave de TSU | inmediato | Revocación de cert. + activación de TSU alternativa con nueva clave. |
| Pérdida de conectividad | 4h | Activar conectividad secundaria. |
| Pérdida de fuente UTC | 24h | Operar con fuente secundaria + investigar. Si ambas fallan, parar servicio TSA. |
| Ransomware / ciberataque | variable | Aislamiento, recuperación desde backup limpio, notificación 24h. |
| Pandemia / pérdida de personal | semanas | Plan de teletrabajo + roles backup. |
6. Equipos de respuesta
| Equipo | Líder | Backup | Responsabilidad |
|---|---|---|---|
| Crisis Management Team | Director General | CISO | Toma de decisiones |
| Equipo Técnico | CTO | Operaciones lead | Ejecución técnica |
| Equipo de Comunicación | Comunicación | Legal | Comunicación interna y externa |
| Equipo Legal | Legal | DPO | Cumplimiento normativo durante crisis |
7. Pruebas
- Tabletop anual.
- Failover real anual.
- Simulacro de notificación 24h al supervisor anual.
- Pruebas de restauración desde backup trimestrales.
8. Métricas
- RTO objetivo vs. RTO medido en última prueba.
- RPO objetivo vs. RPO medido.
- Nº de incidentes activados por nivel de severidad.
- Tiempo medio de respuesta.
9. Histórico de versiones
| Versión | Fecha | Cambios | Aprobador |
|---|---|---|---|
| v0.1 | TBD | Borrador inicial | — |