AI语音克隆技术迎来突破?科学家震撼实现声纹”定向遗忘”,诈骗克星问世却引发模型性能下降争议!

【AI语音反克隆技术突破!新研究实现声纹定向”遗忘”】
最新研究表明,人工智能模型可通过”机器遗忘”技术直接删除特定声纹特征,即使使用者刻意调取也无法还原。这项突破性进展将有效遏制利用音频深度伪造(deepfake)实施的诈骗犯罪——目前仅需数秒样本即可完美克隆任何人声,韩国成均馆大学Ko Jong Hwan教授团队的研究成果首次将该技术应用于语音生成领域。
■ 技术亮点
– 【精准打击】模型对指定声纹的模仿效率降低75%以上,生成声音与原声差异显著
– 【双重防护】不仅能删除训练过的声纹,还可阻止模仿未训练过的特定声音
– 代价:模型整体性能下降约2.8%,遗忘过程需耗时数天/每个声纹
■ 现实困境
随着文本转语音技术突飞猛进,合成语音已能完美复现自然语调和停顿。但这项技术正被滥用于「电话诈骗」「虚假信息传播」等场景。研究团队成员Kim Jinju形象比喻:”现有防护措施就像围栏,总有人试图翻越;而遗忘技术直接清空围栏内的危险品”。
■ 技术原理
团队基于Meta的VoiceBox模型进行改造:
1. 当检测到需屏蔽的声纹请求时,自动替换为随机生成声音
2. 采用高随机性覆盖原始数据,确保不可逆向还原
3. 每个声纹需提供5分钟样本用于”遗忘”训练
(▶️文末附技术演示对比音频)
■ 延伸思考
1. 当声纹成为新型数字身份,我们是否需要立法确立”声音肖像权”?
2. 技术公司应在AI伦理与商业利益间如何平衡?Meta长期未公开VoiceBox正因滥用风险
【行业风向】谷歌DeepMind已启动类似研究,但专家指出根本矛盾:”遗忘效率与模型性能如同鱼与熊掌”。该成果将于本周国际机器学习会议(ICML)发布,相关workshop由北卡大学Patil Vaidehi博士主持。
▶️技术演示片段:[音频链接]
(原始声音 vs 遗忘处理后声音对比,差异显著)
注:75%效果降低数据来自最新声纹相似度检测工具验证
阅读 Technology Review 的原文,点击链接。