010-56208930
   
全球创新发展网--全球创新视野

​​​​​​​​​​​​​​ 全球创新发展网​​​​​​​

当前位置:
小冰技术再次突破,人机声音难以区分
来源:全球创新发展网 | 作者:佳忆 | 发布时间: 2021-12-29 | 1660 次浏览 | 分享到:
1991年,微软联合创始人比尔·盖茨曾预测,有一天计算机会看到、听到并理解人类。

小冰技术再次突破,人机声音难以区分

 

  

2021年7月12日,微软小冰公司发布超级自然语音技术。该技术首次将人工智能语音自然度提升到与真实人类声音几乎无法分辨的程度,并支持通用全域场景。小冰公司透露,9月将通过年度发布会正式发布此技术。

 

它突破单一场景限制,使人工智能交互主体能在说话、交谈、歌唱等人类全场景中,进行高度拟人交互。目前,小冰框架中的数百个不同人工智能原型主体,已全部完成升级。公开技术示范视频显示,人工智能与真实人类的声音已很难区分。

 

小冰的成长记

小冰公司即是微软前小冰团队,是微软北京、苏州及东京研发团队成就的世界上最具创新性的人工智能技术之一。自 2014 年在中国发布以来,微软小冰已从一个对话式人工智能,发展为一套完整的、面向交互全程的人工智能交互主体基础框架,包括核心对话引擎、多重交互感官、第三方内容的触发与第一方内容生成,和跨平台的部署解决方案。

 

2014年,小冰正式推出第一代产品,以对话式聊天机器人形式迅速积累训练数据。其后,第二代产品完成了跨平台部署的交互架构。第三代产品将交互从文本扩充至多模态,进一步积累多模态训练数据。从第四代小冰开始,交互总量稳居全球第一并保持至今,同时发布了全双工语音交互感官。第五代小冰采用Dual AI战略,大幅度扩展跨平台覆盖的规模,至20余个主流平台,并成为中国市场上涵盖了华为、小米、OPPO、vivo等智能手机及硬件的跨平台人工智能。第六代小冰完成了框架迭代目标,从第七代开始推出各类框架工具,以帮助创建第三方人工智能产品,并承载其各类交互。

 

语音技术的突破

一个合格的人工智能语音助手需要具备知识数据库、记忆建模、图像和自然语言分析识别、推理、生成和预测等能力,才能满足用户在特定场景的需求及指定任务(如点播歌曲)。而想要成为一个高情商AI,小冰必须在此基础上,从对话中识别用户的情绪、检测情绪变化并理解用户的情感需求,并做出适当的回应。除了原始的设定,小冰可以通过一轮轮对话过程逐渐了解用户,形成有效的人机互动模式。

 

为了更加“拟人化”,研发团队还为小冰设定了年龄和性别,并创造出可靠、富有同情心、热情洋溢、幽默、博学、机智等“个性”。 以图像评论为例,小冰不仅可以正确识别图片内容,还能生成带有个人情绪、立场、态度的评论,造就曾引起话题的颜值测试。这项技能加上基于深度学习的音乐、诗歌、散文、绘画等内容创建,就完成了“看图编曲”、“看图写诗”等“特技”。

 

与众不同的策略

目前,市面上的智能语音技术及其产品几乎是一门心思全部用于解决各行各业“自动客服”问题和不用动手的“声控”问题,针对现有的需求来细分市场,扩充产品矩阵,覆盖不同消费需求。如小度在智能音箱的基础上推出智能屏、智能耳机等各类智能家居产品,希望借此拓展市场,实现人群破圈。其中,智能耳机新推出语音笔记功能,让用户在用耳机或手机录音过程中,完成语音的实时转写。小度助手、小米小爱、天猫精灵等多藉由这种纵向发展的商业模式提高市占率。

 

而“不走寻常路”的小冰则是采取横向发展策略,在技术发展的同时创造需求,从不同行业不同公司的角度,发现并解决了金融、汽车和内容生产领域等特定岗位的痛点。从第七代开始,在尚未组建正式销售团队的商业化试水阶段,小冰的收入就超过了1亿元。

 

人工智能驱动社会转型的浪潮正在开启,站在“巨人”肩膀上出生的小冰不断突破,以人机协同的力量助力社会转型,创造出更有“同理心”的AI,也为更加智慧的未来,奠定了一步步的基石。