研究人员发现,即使AI训练数据中只有0.001%的错误信息,也可能导致整个AI系统被破坏。
在一项新的研究中,研究人员将AI生成的医疗错误信息注入到一个常用的LLM训练数据集中,名为“The Pile”。结果显示,仅仅用疫苗错误信息替换了100亿训练标记中的100万个(0.001%),就导致了有害内容的4.8%增加,这是通过注入我们仅花费5美元生成的2000篇恶意文章(约1500页)实现的。
研究人员指出,AI开发者和医疗保健提供者在开发医疗LLM时必须意识到这种脆弱性。在更好的安全措施开发出来之前,LLM不应用于诊断或治疗任务,并且在LLM可以在关键医疗环境中被信任之前,还需要进行更多的安全性研究。
鉴于目前对改进数据来源和透明LLM开发的呼吁,我们希望提高人们对在未经筛选的网页抓取数据上训练LLM产生的潜在风险的意识,特别是在医疗领域,错误信息可能会危及患者安全。