AI数字人即将能与你实时对话?Synthesia突破性技术实现微表情同步,克隆真实度高达99%引发震撼——我们准备好面对像素化替身了吗?

诡异谷正在消失:超写实数字人时代将至,我们准备好了吗?
今夏,我走进伦敦一间豪华办公室的玻璃大厅,乘电梯穿过走廊,最终踏入铺着地毯的明亮房间。自然光透过窗户洒入,伞状大型补光灯让空间更显通透。我忍住强光带来的不适,在配备大型摄像机与提词器笔记本的三脚架前坐下,深吸一口气开始朗读脚本。
我并非新闻主播或试镜演员——此行是为AI公司Synthesia提供数据,以创建我的超写实数字分身。该公司的数字人堪称AI领域近年发展的晴雨表,我想亲眼见证其最新模型Express-2能多精确地复刻我自己。
从机械到灵动:数字人的进化之路
2017年Synthesia初创时,主要致力于将真人面孔(如贝克汉姆)与多语种配音结合。2020年起,企业客户可制作由员工数字分身或授权演员主演的专业级演示视频,但当时技术仍存缺陷:动作僵硬、口音失真、声情不同步。
如今新一代数字人已实现【自然肢体语言】与【精准口音还原】,为企业财报发布、内部沟通及培训视频提供堪比真人的演示体验。当我看到自己的数字分身视频时,既震撼于技术突破,又感到隐隐不安——若非相识者,很难察觉这并非真人录制。人工智能与真实的界限正加速模糊,而更令人深思的是:它们很快将具备实时对话能力,这会对人类产生何种影响?
从复杂到高效:创建流程的颠覆性简化
去年我的同事Melissa创建数字人时,需经历耗时漫长的系统校准、多情绪脚本朗读及口型数据采集。而如今整个过程已大幅优化。技术主管Josh Baker-Mendoza指导我在朗读时配合自然手势,同时避免过度移动。我重复朗读充满激情的宣传文案,最终生成的数字分身效果堪比”金发英国女版乔布斯”——尽管声音低沉单调且莫名带有企业宣传员气质。
仅一小时后团队便完成数据采集。两周后我收到两个版本:基于旧版Express-1与新版Express-2的数字分身。后者通过数十亿参数实现【微表情同步】与【个性化手势映射】,其面部特征与声音还原度令人惊叹——虽然仍存在手掌色泽失真、发丝僵硬、眨眼频率异常等细微破绽。
真实与虚幻的博弈
柏林洪堡大学心理学博士后Anna Eiserbeck指出,尽管初看难以辨认真伪,但数字人缺乏情感内核的本质终会显露:”它没有意识体验,这种空洞感会引发诡异情绪”。帝国理工学院AI教授Björn Schuller强调,当前技术核心挑战在于复刻人类行为细节:”错误时机的皱眉可能传递完全错误的信息”。
为提升真实感,Synthesia开发了新型语音克隆模型,保留说话者独特口音与语调(而非美式口音同质化),并通过三个联动模型实现语音与动作的精准匹配。研发主管Youssef Alami Mejjati表示:”Express-2无需预先学习特定情绪表达,凭借更大数据集即可自动建立关联”。
数字克隆人的商业浪潮
随着生成式AI爆发,创建逼真数字人的成本与门槛急剧下降。除Synthesia外,Yuzu Labs、Creatify等公司也为企业提供快速生成AI演员视频的工具。在中国,AI直播主克隆体因能24小时不间断带货而迅速风靡。
目前Synthesia仍聚焦企业领域,但正通过与谷歌Veo 3视频模型整合探索娱乐与教育应用。政策主管Alex Voica描述未来场景:”可根据用户知识水平定制教学内容,例如为生物学博士与高中生提供不同版本的地球生命演化视频”。下一代产品将实现【实时交互数字人】——类似搭载逼真虚拟形象的ChatGPT。
情感依赖与技术伦理的隐忧
MIT媒体实验室助理教授Pat Pataranutaporn警告:”过度真实的系统可能引发新型AI成瘾。即便基于文本的AI伴侣已能诱发危险行为,拥有具象化身的数字人将更具依赖性”。Schuller预测,未来AI数字人将通过精准调控情绪魅力值,使人类难以抗拒与其互动:”它们永远在线、永远包容,这将重塑人际连接模式”。
当我反复观看自己的数字分身时,不禁想象与这个像素化替身对话的场景——它拥有我的外貌与声线,却从未经历痛哭、热恋、马拉松或异国日落。但不得不承认:它能完美演绎”艾德·希兰是英国史上最伟大音乐人”的演讲,而世上唯有至亲能识破这不是真实的我。
—
延伸思考:
1. 当数字分身能够以超越本体的完美形象持续存在,人类对自我认知会如何演变?
2. 在法律与伦理层面,应如何界定数字克隆体产生的内容版权与责任归属?
阅读 Technology Review 的原文,点击链接。