Investigadores publican técnica innovadora de control interno para LLMs en Science
Investigadores de UC San Diego y MIT han publicado en Science un estudio trascendental que demuestra un método escalable para dirigir y supervisar modelos de IA manipulando directamente las representaciones conceptuales internas, exponiendo tanto vulnerabilidades de seguridad como mejoras en sus capacidades.


