研究人員在Science期刊發表突破性的大型語言模型內部引導技術UC San Diego與MIT的研究人員在Science發表了一項具有里程碑意義的研究,展示了一種可擴展的方法,透過直接操控內部概念表示來引導與監控AI模型,並揭示了安全性脆弱點與能力提升。