人形机器人可完成多语言逼真唇形动作 在教育和老年护理领域具应用潜力

5个月前 (01-20)财经热点18

  面部能够根据音频生成逼真的唇部动作,实现与人类语音的同步。该技术还展示了较强的泛化能力,可推广至包括法语、汉语和阿拉伯语在内的多种语言,即使这些语言并未出现在训练数据中。研究团队在发表于最新一期《科学·

  在对话中,如果机器人的唇部动作与声音不匹配,会显得呆板且不自然。然而,现有机器人普遍缺乏执行精细口部动作的灵活性,能实时将语音转化为自然唇部运动指令的技术也寥寥无几。

  研究团队在2024年曾发表研究,描述了一种人形机器人面部可以预测人类的微笑并同时再现该表情。在此基础上,为更加精细化唇部与声音的匹配,团队设计了一套学习流程:首先采集机器人唇部运动的视觉数据,用于训练模型并生成运动参考点;随后通过一个名为“面部动作转换器”的模块产生运动指令,使机器人的唇部能够流畅配合不同词语。他们还专门研制了一种面部结构,采用柔软硅胶皮肤,配合磁性连接器,具备10个自由度,可驱动复杂的唇部运动。其唇部结构能形成覆盖24个辅音和16个元音的各种口型。

  在验证过程中,团队借助ChatGPT生成测试语句,并合成了具有理想唇部动作的视频作为对比基准。结果表明,该方法在5种比较方案中表现最优,其生成的唇部动作与理想视频差异最小。此外,该框架还能为11种不同语音结构的非英语语言生成自然的唇部同步效果。

  研究团队推测,这类在教育、老年护理等领域具有应用潜力。但他们也强调,未来的设计工作需格外谨慎,以防止技术被滥用。人形机器人可完成多语言逼真唇形动作 在教育和老年护理领域具应用潜力

“人形机器人可完成多语言逼真唇形动作 在教育和老年护理领域具应用潜力” 的相关文章

国家发改委:深入推进中部地区崛起等战略,将潜在优势进一步转化

  1月20日,国新办就落实中央经济工作会议精神,推动“十五五”实现良好开局有关情况举行新闻发布会。   国家发展改革委副主任王昌林表示,中西部地区发展潜力很大,是当前和...

禾昌聚合:融资净买入625.92万元,融资余额5302.94万元

  不对因该资料全部或部分内容而引致的盈亏承担任何责任。用户个人对服务的使用承担风险,东方财富对此不作任何类型的担保财经热点。禾昌聚合:融资净买入625.92万元,融资余额5302.94万...

珍宝岛1月21日快速回调

  盘中快速回调,5分钟内跌幅超过2%,截至10点47分,报9.07元,成交1.12亿元财经热点,换手率1.32%。珍宝岛1月21日快速回调...

双元科技等成立新公司 含集成电路芯片业务

  人民财讯1月21日电,企查查APP显示,近日,杭州芯测微讯科技有限公司成立,注册资本3000万元,经营范围包含:集成电路芯片及产品销售;集成电路销售;双元科技等成立新公司 含集成电路芯...

致尚科技1月21日盘中涨停

  盘中涨停,报163.2元,目前封单8086手,折合1.32亿元。截至目前,成交10.43亿元,换手率9.62%。致尚科技1月21日盘中涨停...