AI技术战场上,依图科技又攻下一城。刚刚,在全球声纹识别竞赛VoxSRC(VoxCeleb Speaker Recognition Challenge)上,依图以大幅领先的成绩夺得第一名。去年年底,依图宣布强势进军智能语音领域,并用“识别精度创中文语音识别新高点”的技术成就作为开场,如今在声纹识别技术上亦是登顶。


依图科技拿下全球声纹识别竞赛冠军,智能语音战场又破一城


这两年来,依图不断在重塑边界,业务越来越多元,一直在挑战新领域,也屡摘桂冠——在AI技术上的记录既有深度也有广度,除拥有绝对优势的起家本领人脸识别外:


视觉计算:成为“AI国家队”,依图承建“视觉计算国家新一代人工智能开放平台”。


语音识别:在全球最大的中文开源数据库AISHELL-2中,依图2018年时短语音听写的字错率(CER)达到3.71%,大幅刷新当时的纪录;


AI芯片:算法即芯片,重磅推出拥有世界级算法优势的云端AI芯片——求索(questcore™);


自然语言处理:基于机器学习的NLP技术,依图医疗与合作团队在世界顶级医学科研期刊《自然·医学》(Nature Medicine)刊发题为《使用人工智能评估和准确诊断儿科疾病》的医疗人工智能成果。


计算机视觉、智能语音、NLP、芯片,依图的下一程又在哪里?


超过清华、约翰霍普金斯团队,拿下全球声纹识别竞赛冠军


所谓声纹识别就是说话人识别,根据人说话的声音,判定人的身份的技术。


VoxSRC是基于英国牛津大学两年前发布的公开声纹识别VoxCeleb数据集组织的学术界知名比赛。


依图科技拿下全球声纹识别竞赛冠军,智能语音战场又破一城


本次参赛者来自中、美、法、日本等多个国家的高校与企业,包括中山大学、约翰霍普金斯大学、清华大学、法国国家信息与自动化研究所、平安科技、NEC、君林科技等。


这是依图首次且独立参与这场竞赛,参赛队伍名称为logicworld,比赛成绩大幅领先第二名,依图、第二名和第三名队伍的 EER(等错误率)分别是 0.98% 、1.42%和1.54%。EER是判断声纹识别算法系统的综合指标,EER越小系统性能越好。


依图科技拿下全球声纹识别竞赛冠军,智能语音战场又破一城


VoxCeleb数据集来自YouTube名人采访视频,含有 7000 多个不同说话人超过 100 万段语音,时长总共超过 2000 小时。不仅数据量大,VoxCeleb还充分考虑了数据的多样性,61%的发言者为男性,并且涉及不同的种族、口音、职业和年龄。


此外,VoxCeleb的数据都来自无约束场景,比如红毯采访、会谈录音,因此音频中含有大量噪音,包括背景噪音、笑声、重叠的说话声和其他杂音,收录工具也不尽相同,有的甚至是手机拍摄的粗糙视频。


来源复杂的数据集对声纹识别技术水平的要求更高,声纹识别的高准确率可以提高采用声纹识别技术进行访问控制的系统的安全性。


VoxSRC挑战赛的另一大难点,同时也是其结果备受认可的一点,就是测试数据不含标注,也就是“盲测”,确保了比赛结果的公正与公平。


参赛团队的任务是分辨一对音频是来自同一个发言者还是来自不同的发言者,可以选择固定训练集,也可以使用无约束训练集(除测试集以外的任何数据)。


依图参加的是固定训练数据集任务,在这种情况下,参赛者只能使用赛方提供的VoxCeleb2开发集,该数据集含有来自5994个讲者的超过10万句话语。


深度学习拓展声纹识别边界,深耕算法的依图赢在起跑线上


此前,深度学习在声纹识别领域并不常见,从2012年开始,深度学习逐渐介入声纹识别,进行技术的重新洗牌。


依图科技拿下全球声纹识别竞赛冠军,智能语音战场又破一城


事实上,相对于图像和NLP领域,目前声纹领域所用到的神经网络和深度学习算法相对简单,提升空间依然很大。


而依图正是拥有世界顶级算法的人工智能公司,可以说是直接赢在了起跑线上。


还有一点值得注意,这次依图参加的是固定训练集任务,而其识别精度比其他使用无约束训练集的团队还高。


目前,声纹识别的后端仍被PLDA等传统处理和分类技术占据,深度学习的介入可以促使声纹识别像人脸识别一样广泛应用。


去年年底强势进军,成为智能语音界一匹黑马!


依图科技在2018年底杀入智能语音领域成为一匹“黑马”。


用以宣布进军语音战场的则是技术与产业的双重亮眼成绩:


技术上,在全球最大的中文开源数据库AISHELL-2中,依图2018年12月时的短语音听写的字错率(CER)达到3.71%,相比原业内领先者提升约20%,大幅刷新彼时纪录。


产业上,依图联合微软推出基于Azure云服务的语音开放平台,并携手华为发布软硬件一体化的“智能语音联合解决方案”,将依图语音识别技术提供给第三方应用开发者。


那时候依图就强调语音一直以来都是该公司的关注课题,进入语音识别领域是自然而然的事情,立志做世界最好的中文普通话语识别技术。


依图科技拿下全球声纹识别竞赛冠军,智能语音战场又破一城


讯飞依图BAT各家算法差异巨大,讯飞依图位列第一阵营


如同以往一直坚持的“技术王道”理念,在谈到关于未来预计推出的语音产品及其功能时,依图首席创新官吕昊博士曾经表示:“实际上,我们认为技术和场景是比产品和功能更关键的要素。”


依图2018年推出的中文语音识别算法,与业内原有领先者相比,不仅大幅提升了识别准确率,而且在单个算法模型上,有极为出色的多场景适用性表现。


在全球最大中文开源数据库AISHELL-2的三个测试子集,以及来自第三方的近场口音测试集(Accent)、近场安静聊天测试集(Chat)、语音节目测试集、电话测试集、远场测试集等测试场景中,依图均处于业界领先水平,而且字错率几乎全部在15%以下。


其中,在AISHELL2的-2018A-EVAL数据集中,依图的识别准确率高达96.29%,字错率仅为3.71%,领先第二名约20%。


依图科技拿下全球声纹识别竞赛冠军,智能语音战场又破一城


依图联合创始人兼CEO 朱珑


而构建生态方面,2018年12月,依图宣布与微软Azure云服务联合发布语音开放平台,将行业领先的语音识别技术能力开放给第三方应用开发者。依图也携手华为联合发布“智能语音联合解决方案”,该方案基于依图语音开放平台,以及华为全栈全场景昇腾系列芯片和面向数据中心侧的 Atlas 300 AI加速卡。


已有的生态布局,加上从语音识别到声纹识别不断进行边界拓展的技术积累,依图已经在智能语音方面握了一手好牌。


边界重塑者:视觉感知、NLP、AI芯片、智能语音,依图备齐各项AI能力


不止是在语音领域成为“黑马”,今年5月,依图在发布会上重磅推出了拥有世界级算法优势的云端AI芯片——求索,打破了算法公司与芯片硬件公司的“次元壁”。


在近两年来,依图一直在“跨界”尝试,不断重塑业务边界。


依图科技拿下全球声纹识别竞赛冠军,智能语音战场又破一城


依图求索芯片


当时AI“大牛”颜水成博士加入依图担任CTO时,曾向新智元表示:“依图是一家非常低调的AI公司,但它无论是在产品还是国际技术比赛上都取得了非常好的成绩,这引起了我的好奇,想要一探究竟。”


虽然低调,但AI成绩单确实过硬。


截止目前,依图在人工智能技术上的记录既有深度——在视觉、听觉、语义理解等方面分别问鼎全球一流水平,并且有公开的独占鳌头的成绩;也有广度——覆盖视觉感知、自然语言理解、语音/声纹识别、AI芯片、AI医疗等方面。


其中,NLP的研究甚至已经与依图早已进军的AI医疗相结合。今年2月,世界顶级医学科研期刊《自然·医学》(Nature Medicine)在线刊发题为《使用人工智能评估和准确诊断儿科疾病》的医疗人工智能成果。


该成果由依图医疗联合广州市妇女儿童医疗中心等机构共同研发,基于机器学习的自然语言处理(NLP)技术实现不输人类医生的强大诊断能力,并具备多场景的应用能力。


这是全球首次在顶级医学杂志刊发有关自然语言处理技术基于中文文本型电子病历(EHR)做临床智能诊断的研究成果。不久前,依图医疗将相关技术应用于临床应用,将全国首款儿科诊疗解决方案落地国家儿童医学中心,就诊时间缩短了1.5——2 小时。


在人脸识别方面,依图在美国国家标准与技术研究院(NIST)举行的全球人脸识别权威测试(FRVT)中连续三年获得第一名。


在中央网信办、工业和信息化部、公安部指导下的首届中国人工智能竞赛上,依图斩获10项A类成绩,是夺冠最多的团队。


依图科技拿下全球声纹识别竞赛冠军,智能语音战场又破一城


芯片设计的技术实力也让依图一举进入“AI国家队”行列。


依图又夺何冠?


VoxSRC,由来自牛津大学,斯坦福国际研究院和麻省理工的学者组织举办。


参赛者包括约翰霍普金斯大学、法国国家信息与自动化研究所、日本电气(NEC)等传统豪强,也有中国的清华大学,天津大学,中山大学,依图科技,平安科技等学校企业。


选手都有备而来,比拼直接而激烈。


指纹识别,人脸识别已经被大众所熟知,但同样作为生物信息识别的一种——声纹识别(即说话人识别),目前还是技术挑战的前沿,常在科幻电影中出现,也常被语音AI公司当展望谈及。


声纹识别权威评判标准不多,但真正检验技术的,VoxCeleb说话人识别挑战赛可能算一个。


其主要考核,是运用AI技术如何能够从自然语音中识别出说话人。


比赛采用的训练数据集为VoxCeleb2,由牛津大学发起提供。这一数据集中的音频全部采集自YouTube,场景包括明星红地毯、名人演讲、真人节目访谈以及大型体育解说等,包含了5994位名人的超过一百万条语音。


这些名人涉及不同的性别,种族,口音,职业和年龄,并且音频中存在各种各样的背景噪声,包括环境突发噪声、背景人声、笑声、回声,室内噪声和录音设备噪声等等。


比赛的测试集则全部没有标注,属于“盲测”,保证了竞赛的公平与公正。


依图科技拿下全球声纹识别竞赛冠军,智能语音战场又破一城


面对如此挑战,想让AI准确提取声学特征、说话人特征,并实现准确的识别匹配,并非易事。


在发表于Interspeech 2018的论文中,VoxCeleb2的作者牛津大学Visual Geometry Group实验室训练出的ResNet-50达到了3.95%的等错误率(EER),超越了当时的基线方法。


而就在这场比赛中,依图不仅大幅刷新该纪录,将EER压缩至0.98%,还超出第二名(1.42%)一个身位,以绝对优势夺冠。


毫无疑问,这是一次技术实力的肌肉展示。


但如果熟悉依图业务,就可能忍不住想得更多。


依图参与全球声纹识别竞赛,又怎会是为了刷榜而刷榜?


技术“冗余”,增强场景化落地


从声纹识别本身来说,作为生物识别技术的一种,应用前景原本就非常广阔。


在个人信息加密领域,更能发挥重要的作用。


作为一种生物识别解决方案,声纹识别在金融等对个人信息安全有高要求的行业当中,也能够提供更高的安全性,强化风控能力。


依图科技拿下全球声纹识别竞赛冠军,智能语音战场又破一城


此外作为智能语音应用落地的更大挑战,声纹识别的攻坚,对于性别年龄画像、语种方言识别,进而做到真正的语音交互千人千面,都是绕不过去的核心问题。


而且随着AI在各行各业的场景化落地越来越普遍,技术冗余,针对不同问题提供不同解决方案,也在成为AI公司竞争力的核心要求。


在各项技术上有实力、有储备,才能发展、落地更全面。


也就意味着,AI公司下一阶段发展,深度和广度,都得兼备。


AI公司的深度&广度


这或许也是依图目前发展开拓的背后思路。


之前,依图被人熟知,更多是“CV四小龙”的并称,强调其在视觉领域的地位。


依图也确实在多项视觉国际比拼中斩获冠军。比如依图连续三年参加美国国家标准技术局(NIST)人脸识别供应商测试(FVRT),连续三次斩获冠军。


在安防、金融和医疗领域,依图的AI视觉能力,也赢得了真实业务场景的认可。


但2018年以来,依图开始展现出强大的“泛化”能力,开始将AI技术打通,并迅速在拓展领域取得核心突破。


在语音领域,其语音识别算法在全球最大的开源中文数据库AISHELL-2上字错率仅3.71%,大幅刷新纪录。


在NLP方面,依图联合广州妇女儿童医疗中心等机构,将自然语言处理(NLP)技术应用于儿科疾病诊断,成果登上《自然·医学》(Nature Medicine),这也创下中国AI医学的新纪录。


依图科技拿下全球声纹识别竞赛冠军,智能语音战场又破一城


其后更令业界震动的是,依图低调部署研发,完成了自主AI芯片“求索”的流片、发布并商用,以“算法即芯片”理念,提出智能密度的新理论,为AI场景化落地,提供坐标参考系。


依图科技拿下全球声纹识别竞赛冠军,智能语音战场又破一城


最近一次,由工信部、公安部及网信办三部委指导主办的“中国人工智能高峰论坛”上,依图AI芯片不仅获得了AI创新之星,依图也在首届多媒体信息识别竞赛中,于11个任务中,斩获10个A级,为所有参赛者中夺冠最多。


依图科技拿下全球声纹识别竞赛冠军,智能语音战场又破一城


所以,依图路径、依图模式,也是时候值得更多讨论了。


这种模式在科技创业的历史中并不陌生。先有垂直深度,然后平台化迁移,打造技术更为全面、应用更加广泛的大平台。


但在AI历程中,这样既要保证深度又有兼顾广度的事情,依图之外,还无人做到。


所以声纹之冠,或许还不是依图实力的全部。


8月29日的上海人工智能大会上,科技部宣布,依托依图先进的芯片设计及世界级算法,建设“视觉计算国家新一代人工智能开放平台”,促进芯片设计与人工智能的结合,推动视觉计算生态体系的建设。


逐渐备齐各项AI能力,业务能力越来越多元,商业竞争力不断增强。


那么,依图下一步的计划是什么呢?下一个重塑的边界在哪里?这可能又是一个新故事。


文章来源:新智元

我来说几句

不吐不快,我来说两句
最新评论

还没有人评论哦,抢沙发吧~