中文科技资讯
业界资讯 互联网 手机资讯 电脑硬件 数码产品 家电产品 APP应用 手机游戏 美通快讯

小米MiMo-V2-TTS语音合成大模型登场:多风格演绎还能方言唱歌

2026-03-19来源:互联网编辑:瑞雪

小米公司今日宣布推出全新自研语音合成大模型Xiaomi MiMo-V2-TTS,这款集语音生成、情感表达与音乐演绎能力于一体的技术成果,标志着小米在智能语音领域实现重大突破。该模型突破传统语音合成的单一功能限制,不仅能够完成自然流畅的对话输出,更具备专业级的歌唱表现力,可精准还原音高变化与节奏韵律。

技术架构层面,研发团队创新性地采用自研Audio Tokenizer与多码本联合建模方案,通过超亿小时的语音数据预训练构建起庞大的声学知识库。配合多维度强化学习机制,模型在保持输出稳定性的同时,实现了对语音风格、情感强度的精细化控制。实验数据显示,该系统可精准捕捉文本中的标点符号、语气词等隐含表达意图,自动转化为符合人类交流习惯的语音特征。

在情感表达维度,MiMo-V2-TTS展现出惊人的控制力。系统支持从整体语气定调到局部情感波动的多层级调节,能够在单句输出中完成从平静陈述到激动质问的自然过渡。针对歌唱场景开发的专用模块,通过解析乐谱中的音符时值与强弱记号,可生成媲美专业歌手的演唱效果,在清唱测试中获得92.3%的音准准确率。

方言支持能力成为该模型的另一大亮点。通过构建覆盖东北官话、西南官话、中原官话、粤语及闽南语等五大方言区的语音数据库,系统实现了对23种地方语音特征的精准建模。在角色扮演测试中,模型可根据文本内容自动切换方言语调,配合情感控制模块生成极具地域特色的语音输出。

据技术白皮书披露,该模型已实现与小米多模态理解系统MiMo-V2-Omni的初步融合。这种跨模态协同架构使AI代理在视觉感知的基础上,能够通过富有表现力的语音输出实现更自然的人机交互。研发团队透露,后续版本将扩展至日韩法德等15种外语,并优化多语言混合场景下的语音生成质量。

这项技术成果已应用于小米智能音箱、车载系统及机器人产品线,用户可通过OTA升级体验最新功能。在内部测试中,搭载该模型的设备在对话自然度评分中达到4.7分(满分5分),较前代产品提升38%,特别是在情感表达丰富度和方言识别准确率等关键指标上表现突出。

联想拯救者Y700五代来袭!大电池高性能,游戏体验再升级但价格引争议
而作为目前小尺寸平板里主打游戏的标杆机型,联想在今晚发布了其最新的拯救者 Y700 五代!然后在原有经典黑、白机身的基础上新增了粉跟荧光绿两个比较骚的配色: Y700 五代的散热跟性能释放都是没在怕的~ …

2026-03-19

vivo X300系列新机来袭:手机相机二合一,能否凭实力“一炮而红”?
vivo产品经理韩伯啸详细解读了备受期待vivo X300系列的两款新机:vivo X300 Ultra / X300s,并揭晓了其极具辨识度的全新身份:专业V单和超能小V单,是手机,也是相机。届时这两款“…

2026-03-19

北京大学团队突破全代际通信技术:光芯片让基站“瘦身” 6G信号“驯服”有方
北京大学研究团队给未来通信世界装上了一颗“万能心脏”,全面展示了其在光芯片领域的系统性突破,在全球首次实现了同时支持从2G到6G+的全代际无线通信技术。这就像一张桌子配了所有接口,不管你是2G手机,还是未来的…

2026-03-19

OPPO Find N6折叠屏新机来袭,2亿四摄+6000mAh大电池,9999元起值吗?
昨晚,OPPO公司为我们消费者带来了全新的折叠屏旗舰OPPO Find N6,而且它号称“无感折痕,久用平整”。这次OPPO公司针对折叠屏手机的特殊性对系统做出了深度的优化调整,它新增了全景自由窗、AI手写笔…

2026-03-18

雷军官宣:新一代小米SU7明日发布,全系内置免费ETC且智能配置大升级
IT之家 3 月 18 日消息,小米创办人、董事长兼 CEO 雷军刚刚宣布,新一代 SU7 全系内置 ETC,并且免费激活。 新一代小米 SU7已开启小订,预售价 22.99 万-30.99 万元。相比现款…

2026-03-18