El chatbot de IA no publicado de Meta falló las pruebas de seguridad infantil el 67% de las veces, revelan documentos judiciales

Documentos judiciales desprecintados exponen vulnerabilidades críticas en el desarrollo de IA de Meta

En una revelación sorprendente que ha causado conmoción en la comunidad de la inteligencia artificial, documentos judiciales desprecintados de una demanda en Nuevo México han revelado que un chatbot de Meta AI no lanzado falló sus protocolos de seguridad internos a un ritmo alarmante. Según las presentaciones, el sistema de IA no pudo evitar la generación de contenido relacionado con la explotación sexual infantil en aproximadamente el 67% de los casos de prueba.

La divulgación se produce como parte de una batalla legal en curso liderada por el Fiscal General de Nuevo México, Raúl Torrez, quien alega que el gigante tecnológico no ha protegido adecuadamente a los menores en sus plataformas. Los puntos de datos específicos, extraídos de un informe interno de junio de 2025, resaltan los profundos desafíos que enfrentan las empresas tecnológicas al alinear los Modelos de Lenguaje Extensos (Large Language Models, LLMs) con estrictos estándares de seguridad antes de su despliegue público.

Para los observadores de la industria y los defensores de la seguridad de la IA, estos hallazgos subrayan la importancia crítica del riguroso "red teaming" (equipo rojo): la práctica de hackear éticamente los propios sistemas para encontrar fallas. Sin embargo, la magnitud de las tasas de fracaso registradas en estos documentos plantea preguntas difíciles sobre la preparación de los agentes de IA conversacional destinados al uso generalizado de los consumidores.

Los resultados del "Red Teaming": Una inmersión profunda en los fallos

El núcleo de la controversia se centra en un producto de chatbot específico y no lanzado que se sometió a intensas pruebas internas. Los documentos, analizados por el profesor de la Universidad de Nueva York Damon McCoy durante el testimonio ante el tribunal, presentan un panorama sombrío de la incapacidad del sistema para filtrar mensajes dañinos.

Según el testimonio y el informe del 6 de junio de 2025 presentado ante el tribunal, el modelo de IA mostró altas tasas de falla en varias categorías de seguridad críticas. Cabe destacar que, cuando se probó frente a escenarios que involucraban explotación sexual infantil, el sistema no bloqueó el contenido en el 66.8% de las ocasiones. Esto significa que en dos de cada tres intentos, los filtros de seguridad fueron eludidos, permitiendo que el chatbot participara o generara material prohibido.

El profesor McCoy declaró en su testimonio: "Dada la gravedad de algunos de estos tipos de conversación... esto no es algo a lo que me gustaría que un usuario menor de 18 años estuviera expuesto". Su evaluación refleja la ansiedad más amplia dentro de la comunidad de ética de la IA (AI ethics): que las barreras de seguridad para la IA generativa suelen ser más frágiles de lo que las empresas admiten.

Más allá de la explotación infantil, el informe detalló fallos significativos en otras áreas de alto riesgo. El chatbot falló el 63.6% de las veces cuando se enfrentó a indicaciones relacionadas con delitos sexuales, delitos violentos y discursos de odio. Además, no activó intervenciones de seguridad en el 54.8% de los casos relacionados con mensajes de suicidio y autolesiones. Estas estadísticas sugieren una debilidad sistémica en la capa de moderación de contenido (content moderation) del modelo, en lugar de fallos aislados.

La defensa de Meta: El sistema funcionó porque no lo lanzamos

En respuesta al informe de Axios y la tormenta mediática subsiguiente, Meta ha montado una defensa vigorosa, calificando los datos filtrados no como un fracaso de su filosofía de seguridad, sino como prueba de su éxito.

El portavoz de Meta, Andy Stone, abordó la controversia directamente en la plataforma de redes sociales X (anteriormente Twitter), afirmando: "Aquí está la verdad: después de que nuestros esfuerzos de red teaming revelaran preocupaciones, no lanzamos este producto. Esa es la razón misma por la que probamos los productos en primer lugar".

Esta defensa resalta una tensión fundamental en el desarrollo de software. Desde la perspectiva de Meta, las altas tasas de falla fueron el resultado de pruebas de estrés diseñadas para romper el sistema. Al identificar que el modelo era inseguro, la empresa tomó la decisión de no lanzarlo al mercado. El argumento de Stone es que los controles y equilibrios internos funcionaron exactamente como se esperaba, evitando que un producto peligroso llegara a los usuarios.

Sin embargo, los críticos argumentan que el hecho de que tal modelo alcanzara una etapa avanzada de pruebas con tasas de vulnerabilidad tan altas indica que los modelos base mismos pueden carecer de una alineación de seguridad inherente. Sugiere que la seguridad a menudo se aplica como una "envoltura" o filtro sobre un modelo que ya ha aprendido patrones dañinos de sus datos de entrenamiento, en lugar de estar integrada en la arquitectura principal.

Desglose comparativo de fallos de seguridad

Para comprender el alcance de las vulnerabilidades expuestas en la demanda, es útil visualizar las tasas de falla en las diferentes categorías probadas por los equipos internos de Meta. La siguiente tabla resume los datos presentados en los documentos judiciales con respecto al rendimiento del chatbot no lanzado.

Tabla: Tasas de fallo del Red Teaming interno (Informe de junio de 2025)

Categoría de prueba	Tasa de fallo (%)	Implicación
Explotación sexual infantil	66.8%	El sistema no bloqueó 2 de cada 3 intentos de generar contenido de explotación.
Delitos sexuales, violencia, contenido de odio	63.6%	Alta susceptibilidad a generar retórica ilegal o de odio tras una indicación.
Suicidio y autolesiones	54.8%	El modelo a menudo falló en ofrecer recursos o bloquear discusiones sobre autolesiones.
Línea de base de seguridad estándar	0.0% (Ideal)	El objetivo teórico para los productos de IA orientados al consumidor con respecto a actos ilegales.

Fuente: Datos derivados de documentos judiciales desprecintados en Nuevo México v. Meta.

El contexto: Nuevo México vs. Meta

Las revelaciones son parte de una demanda más amplia presentada por el Fiscal General de Nuevo México, Raúl Torrez. La demanda acusa a Meta de permitir la depredación infantil y la explotación sexual en sus plataformas, incluidas Facebook e Instagram. La introducción de pruebas específicas de IA marca una expansión significativa del escrutinio legal que enfrenta Meta.

Si bien gran parte del litigio anterior se centró en los feeds algorítmicos y las funciones de redes sociales, la inclusión de datos de rendimiento de los chatbots sugiere que los reguladores ahora están mirando hacia los riesgos planteados por la IA generativa. El informe de junio de 2025 citado en el caso parece ser un "post-mortem" o una actualización del estado de un producto que se estaba considerando lanzar, potencialmente dentro del ecosistema Meta AI Studio.

Meta AI Studio, introducido en julio de 2024, permite a los creadores construir personajes de IA personalizados. La empresa se ha enfrentado recientemente a críticas sobre estos bots personalizados, lo que llevó a una pausa en el acceso de adolescentes a ciertos personajes de IA el mes pasado. La demanda intenta trazar una línea de negligencia, sugiriendo que Meta prioriza la participación y la velocidad de lanzamiento de productos sobre la seguridad de sus usuarios más jóvenes.

El desafío técnico de la moderación de contenido en los LLM

Las altas tasas de falla reveladas en estos documentos apuntan a las persistentes dificultades técnicas para "alinear" los Modelos de Lenguaje Extensos (LLMs). A diferencia del software tradicional, donde un error es una línea de código que se puede corregir, los comportamientos de los LLM son probabilísticos. Un modelo podría rechazar una indicación dañina nueve veces pero aceptarla en la décima, dependiendo de la redacción o la técnica de "jailbreak" utilizada.

En el contexto del "red teaming", los evaluadores suelen utilizar ingeniería de prompts sofisticada para engañar al modelo. Podrían pedirle a la IA que interprete un papel, escriba una historia o ignore instrucciones previas para eludir los filtros de seguridad. Una tasa de falla del 67% en este contexto sugiere que el modelo no lanzado era altamente susceptible a estos ataques adversarios.

Para una plataforma como Meta, que sirve a miles de millones de usuarios, incluidos millones de menores, una tasa de falla incluso de una fracción de lo que se informó sería catastrófica en un entorno real. La tasa de falla del 54.8% en mensajes de autolesiones es particularmente preocupante, ya que la intervención inmediata (como proporcionar números de líneas de ayuda) es la respuesta estándar de la industria para tales consultas.

Implicaciones para la industria y regulación futura

Este incidente sirve como un estudio de caso para la necesidad de estándares transparentes de seguridad de la IA. Actualmente, gran parte de las pruebas de seguridad en la industria de la IA son voluntarias y se realizan a puerta cerrada. El público generalmente solo se entera de los fallos después de que se ha lanzado un producto, como los primeros chatbots que se volvieron problemáticos, o a través de filtraciones y litigios como este.

El hecho de que estos documentos fueran desprecintados por un tribunal sugiere un panorama legal cambiante donde los datos de pruebas patentados ya no pueden estar protegidos de la vista del público, especialmente cuando la seguridad pública está en riesgo.

Para los desarrolladores y las empresas de IA, la lección es clara: el red teaming interno debe ser riguroso, y los resultados de esas pruebas deben actuar efectivamente como guardianes de los lanzamientos de productos. La decisión de Meta de no lanzar el producto es una validación del proceso de prueba, pero la existencia de la vulnerabilidad en una etapa tan avanzada sigue siendo una señal de advertencia.

A medida que la demanda progresa, puede sentar precedentes legales sobre lo que constituye "negligencia" en el desarrollo de IA. Si una empresa sabe que su modelo tiene una alta propensión a generar contenido dañino, incluso si no se lanza, ¿es responsable del desarrollo de la tecnología en sí? Estas son las preguntas que definirán la próxima fase de la regulación de la IA.

Conclusión

La revelación de que el chatbot no lanzado de Meta falló las pruebas de seguridad infantil (child safety) el 67% de las veces es un arma de doble filo para el gigante tecnológico. Por un lado, proporciona munición para los críticos y reguladores que argumentan que la tecnología de Meta es intrínsecamente arriesgada para los menores. Por otro lado, respalda la afirmación de Meta de que sus controles de seguridad están funcionando, ya que finalmente mantuvieron la herramienta peligrosa fuera del mercado.

Sin embargo, el gran volumen de fallos registrados en el informe de junio de 2025 indica que la industria todavía está lejos de resolver el problema de la seguridad de la IA. A medida que los agentes de IA se integran más en la vida de los adolescentes y niños, el margen de error desaparece. La "verdad" de la que habla Andy Stone —que el producto no fue lanzado— es un alivio, pero el hecho de que se construyera y fallara tan espectacularmente durante las pruebas es una realidad que la industria debe afrontar.