Microsoft Copilot ignoró las etiquetas de sensibilidad dos veces en ocho meses, exponiendo datos empresariales incluidos los registros del NHS

Fallo de seguridad de Microsoft Copilot: Cronología de una confianza rota

Por segunda vez en ocho meses, se ha descubierto que el asistente de IA insignia de Microsoft, Copilot, elude los mismos protocolos de seguridad diseñados para que su adopción empresarial sea segura. Un error crítico activo durante los primeros meses de 2026 permitió que la IA leyera, resumiera y sacara a la luz correos electrónicos marcados explícitamente como "Confidenciales", saltándose las políticas de Prevención de Pérdida de Datos (Data Loss Prevention, DLP) y exponiendo datos sensibles en importantes organizaciones, incluido el Servicio Nacional de Salud (National Health Service, NHS) del Reino Unido.

Este último incidente, que dejó registros sensibles vulnerables durante casi cuatro semanas, no es un fallo aislado. Sigue a una vulnerabilidad grave descubierta en junio de 2025, dibujando un panorama preocupante de un "punto ciego sistémico" en el conjunto de seguridad de la IA moderna. A medida que las empresas se apresuran a implementar la IA generativa (Generative AI), estos fallos repetidos plantean preguntas urgentes: ¿Pueden los marcos de seguridad heredados como DLP y etiquetas de sensibilidad contener verdaderamente a los Modelos de lenguaje de gran tamaño (Large Language Models, LLMs) en tiempo de ejecución?

El incidente de febrero de 2026: Eludiendo la etiqueta "Confidencial"

A finales de enero de 2026, un defecto a nivel de código en Microsoft 365 Copilot desactivó eficazmente el "límite de confianza" en el que confían las organizaciones para proteger sus comunicaciones más sensibles. El error, rastreado por Microsoft como CW1226324, permitió al asistente de IA acceder, procesar y resumir correos electrónicos almacenados en las carpetas de "Elementos enviados" y "Borradores" de los usuarios, incluso cuando esos correos electrónicos llevaban etiquetas de sensibilidad restrictivas como "Altamente confidencial" o estaban cubiertos por políticas de DLP activas.

En condiciones normales, las etiquetas de sensibilidad actúan como señales digitales de "no entrar" para la IA. Si un documento está etiquetado como "Confidencial", Copilot está obligada contractual y técnicamente a ignorarlo durante su proceso de Generación Aumentada por Recuperación (Retrieval-Augmented Generation, RAG). Sin embargo, durante aproximadamente 28 días —del 21 de enero al 19 de febrero de 2026— este mecanismo falló para carpetas específicas de Outlook.

El impacto se sintió con agudeza en los sectores regulados. El NHS, que gestiona grandes cantidades de datos privados de pacientes, marcó el incidente internamente como INC46740412. Durante casi un mes, el personal que utilizaba Copilot para tareas administrativas rutinarias podría haber sacado a la luz inadvertidamente Información de Salud Protegida (Protected Health Information, PHI) o documentos de estrategia interna que se suponía debían ser invisibles para el modelo de IA.

Aunque Microsoft ya ha implementado una corrección y ha declarado que el error "no proporcionó a nadie acceso a información para la que no estuviera ya autorizado", el fallo socava la promesa central de la Gobernanza de IA (AI governance): que la IA no procesará los datos que se le ha dicho que ignore. En un contexto legal o de cumplimiento, el mero procesamiento de datos restringidos por parte de un modelo de IA —resumir un borrador legal privilegiado o un registro de paciente— puede constituir una violación de la política.

Un patrón de vulnerabilidad: El precedente de EchoLeak

El fallo de febrero de 2026 es el segundo gran golpe contra la arquitectura de seguridad de Copilot en menos de un año. Ocho meses antes, en junio de 2025, los investigadores revelaron una vulnerabilidad crítica apodada "EchoLeak" (CVE-2025-32711).

A diferencia del error de febrero, que fue un fallo funcional de las etiquetas, EchoLeak fue un sofisticado exploit "de cero clics" (zero-click). Permitió a los atacantes incrustar instrucciones ocultas en correos electrónicos de apariencia inofensiva. Cuando Copilot procesaba estos correos, las instrucciones ocultas "secuestraban" la ventana de contexto de la IA, obligándola a recuperar y filtrar datos sensibles al atacante sin que el usuario se diera cuenta de que se había producido una brecha.

Ambos incidentes revelan una realidad peligrosa: los controles de seguridad de Microsoft están luchando por mantener el ritmo de la naturaleza compleja y no determinista de los LLM.

Comparación de fallos de seguridad recientes de Copilot

Nombre del incidente	Fecha activo	Causa raíz	Mecanismo de fallo
EchoLeak (CVE-2025-32711)	Junio de 2025	Violación del alcance del LLM	La inyección de prompts maliciosos permitió a los atacantes secuestrar la recuperación RAG y filtrar datos.
Bypass de DLP (CW1226324)	Ene - Feb 2026	Defecto funcional del código	Copilot ignoró las etiquetas de sensibilidad en carpetas específicas de Outlook (Borradores/Enviados), resumiendo datos confidenciales.

El punto ciego sistémico: Seguridad en tiempo de ejecución frente a seguridad estática

La recurrencia de estos problemas resalta una desconexión fundamental entre la seguridad de datos tradicional y la forma en que opera la IA generativa.

Las herramientas heredadas como DLP y las etiquetas de sensibilidad están diseñadas para una protección estática o transaccional. Plantean preguntas binarias: ¿Tiene el Usuario A permiso para abrir el Archivo B? ¿Contiene este correo electrónico un número de tarjeta de crédito?

Sin embargo, los Copilots de IA operan dinámicamente en tiempo de ejecución. Utilizan RAG para escanear, recuperar y sintetizar fragmentos de información de miles de documentos en milisegundos.

La brecha de contexto: Como se vio en el incidente de febrero, si la lógica de recuperación de la IA tiene un error, simplemente ignora las etiquetas de metadatos (labels) que se supone que deben bloquearla.
La brecha de interpretación: Como se vio con EchoLeak, la IA puede ser engañada para interpretar datos maliciosos como un comando, eludiendo los firewalls estáticos que solo buscan firmas de malware.

Los expertos en seguridad advierten cada vez más que "aplicar permisos" ya no es suficiente. La propia capa de IA requiere un firewall dedicado, uno que valide no solo quién accede a los datos, sino qué está haciendo la IA con ellos en tiempo real.

Implicaciones para la industria: El déficit de confianza

Para los Directores de Información (Chief Information Officer, CIO) y los Directores de Seguridad de la Información (Chief Information Security Officer, CISO), las implicaciones de la cronología de "dos veces en ocho meses" son graves. La exposición del NHS sirve como un potente estudio de caso sobre los riesgos de confiar en los controles de seguridad nativos del proveedor para entornos de alto riesgo.

Conclusiones clave para los líderes empresariales:

Verificación sobre confianza: Las organizaciones ya no pueden asumir que activar "DLP" garantiza el cumplimiento de la IA. La auditoría independiente y el "Red Teaming" de las implementaciones de IA se están volviendo obligatorios.
Saneamiento de datos: El vacío legal de las carpetas "Borradores" y "Enviados" sugiere que la higiene de los datos es crítica. Los borradores antiguos suelen contener pensamientos sin filtrar o datos sensibles que, si la IA los saca a la luz, pueden causar daños a la reputación.
Preocupaciones sobre la soberanía: Dado que el Parlamento Europeo y otros organismos gubernamentales pausaron anteriormente los despliegues de Copilot debido a preocupaciones sobre los datos, estos fallos técnicos validan el enfoque de "IA soberana", donde los datos críticos están físicamente aislados de los LLM de propósito general.

Microsoft ha tomado medidas para parchear estas vulnerabilidades, pero la frecuencia de estos fallos de alto perfil sugiere que la arquitectura de la IA empresarial todavía está encontrando su lugar. Hasta que se cierre el "punto ciego" entre los permisos estáticos y el procesamiento dinámico de la IA, las empresas siguen estando a una actualización de su próxima exposición de datos.