Researchers discover if 0.001% of AI training data misinformation the AI becomes corrupted

研究人员发现，即使AI训练数据中只有0.001%的错误信息，也可能导致整个AI系统被破坏。

在一项新的研究中，研究人员将AI生成的医疗错误信息注入到一个常用的LLM训练数据集中，名为“The Pile”。结果显示，仅仅用疫苗错误信息替换了100亿训练标记中的100万个（0.001%），就导致了有害内容的4.8%增加，这是通过注入我们仅花费5美元生成的2000篇恶意文章（约1500页）实现的。

研究人员指出，AI开发者和医疗保健提供者在开发医疗LLM时必须意识到这种脆弱性。在更好的安全措施开发出来之前，LLM不应用于诊断或治疗任务，并且在LLM可以在关键医疗环境中被信任之前，还需要进行更多的安全性研究。

鉴于目前对改进数据来源和透明LLM开发的呼吁，我们希望提高人们对在未经筛选的网页抓取数据上训练LLM产生的潜在风险的意识，特别是在医疗领域，错误信息可能会危及患者安全。

Related Articles