首页 > 生活感悟 > 免费教学 > 中国移动联合南京大学团队研发高保真2D数字人说话驱动系统

中国移动联合南京大学团队研发高保真2D数字人说话驱动系统

发布时间:2024-12-09 17:24:08来源: 15210273549

12 月 9 日消息,中国移动 12 月 8 日宣布联合南京大学团队研发高保真 2D 数字人说话驱动系统

作为拥有世界规模第一用户数的通信运营商,中国移动每年的客户服务运营成本巨大。现已广泛普及的智能语音客服虽能完成一定的业务自动应答任务,但依然不及人工客服面对面,一对一的星级服务体验。

针对实际业务存在的痛点,中国移动九天视觉团队联合南京大学邰颖团队,研发高保真 2D 数字人说话驱动系统,旨在为用户提供表情自然、唇音同步和头部姿态和谐的数字人播报对话服务,可应用于智能客服、教育培训、广告营销等场景。

▲ 情感控制的高保真 2D 数字人说话驱动方法

据中国移动官方介绍,2D 数字人说话驱动系统实现根据给定目标人物的照片或视频和任意一段音频,生成与音频同步的目标人物说话视频流。要求生成视频里的人物逼真度高,表情姿态自然,同时需要具有较高的实时性,能做到与语言大模型、音频合成能力有机整合,构建起人物数字替身。

中国移动九天视觉团队联合南京大学研发的高保真 2D 数字人说话驱动系统,在以下三方面开展了技术攻坚和方案创新:

  • 第一,性能实时:相比以往数字人方法,在实时播报的口型生成技术上达到了学术界领先水平,支持中英文数字人口型驱动,在保持效果的情況下达到实时性能 30ms / 帧

  • 第二,效果领先:研发二阶段学习框架,将数字人说话驱动拆解成:从音频到口型系数和从口型系数到生成人像两部分,降低学习难度,实现更好的生成效果。

  • 第三,情绪控制:引入情绪引导学习模块,支持正常、微笑、惊讶、愤怒、恐惧、悲伤等 7 种主流情绪控制生成能力,赋予生成的播报人人文情感表达能力。

▲ 高兴、悲伤情绪下的数字人说话生成效果

IT之家从中国移动官方获悉,数字人生成技术上实现了端到端的二阶段 30 FPS 实时生成性能,并支持 512*512 人脸区域生成,同时具备高兴、悲伤等 7 种主流情绪控制生成能力。

在评测集 VoxCeleb 指标方面,该技术的口型准确性 LMD(LandMark Distance)达到 4.3,生成自然度 FID 达到 11.1。

中国移动官方表示,该研发成果应用前景广阔,有效降低了创作门槛,提升了生成人物的视觉质量,已为 5G 新通话、和留言小秘书品牌业务的拓展赋能升级

免费教学更多>>

CVT+MINI,小姐姐出游的最优解 比亚迪海鸥推送1.5.2版本OTA升级:新增驻车通风功能 2025款汉持续劲销,3个多月销量破10万,重塑20万级轿车价值标杆 现代起亚去年在美国的电动汽车销量超过通用和福特 比亚迪部分车型将陆续交付自研中高阶智驾方案 东风4款乘用车产品在越南上市 聚焦需求、分层分类、打造精品——2025年红旗培训课程选题会在京举办 打不倒的传祺,家用MPV依然是它的统治区 五菱星光S,颜值、空间不错。配置、动力怎么样?值得入手吗? 上海现代建筑装饰环境设计研究院有限公司取得 LED 条形灯安装结构专利,使 LED 条形灯本体安装更加方便 广东第三个“千亿镇”!东莞长安镇电子信息产业规模达2000亿元 2025款别克GL8设计就大格局 东风本田纯电新势力:烨S7、烨GT,真香还是劝退?未来可期? 本田“最便宜”的紧凑型SUV,HR-V只需12.49万起,比CR-V有性价比 准新福特蒙迪欧,15万体验混动魅力,油耗更低更环保 百年老店也在悄摸进化?奔驰端到端智驾解读,走在豪华车前列? 大众ID.3对比领克Z20,14万预算增购家庭第二台车,选谁更合适? 10万级纯电瑜亮之争!比亚迪元PLUS和吉利银河E5应该怎么选? 日产超2500万方!15口新井连投!重庆涪陵再传喜讯 提前一年实现盈利目标!零跑不是“小理想”,而是中国版“丰田” 2025款新风格,丰田凯美瑞实车图曝光 丰田终于听劝!降至13万多和雷萨克斯同平台,车长近5米油耗4.3升 10万级纯电瑜亮之争!长安深蓝S05和吉利银河E5应该怎么选? 可醇可电可油!吉利今年全新“超醇电混”产品双车齐发 全新奥迪Q3/A7领衔,奥迪2025年重点新车计划曝光!押宝插电混动? 欧版三星Galaxy S25标准版手机被曝起步存储仍为128GB 100%本土主导,上汽通用计划3年内推出12款新能源车型 零跑C10增程版:12万级SUV,配激光雷达,智驾体验如何? 新能源SUV三选一,零跑C10、深蓝S05和宋Pro,谁最值得买? 特斯拉将上线“春节归乡超级充电卡” RTX 5080 对比 RTX 4080 显卡:规格、价格、性能