不了解攀冰的人会自然地将这项户外运动于攀岩做比较。其实,攀冰是一个更加宁静的过程,面对着冰雪的纯净世界,它更像是一场孤独的冥想。如果没有尝试过这个冬季乐趣的话确实很难将冰冷的岩壁和内心的平静联系起来。没有关系,明尼苏达州不断成熟的攀冰俱乐部会让你对攀冰这项运动有新的认识。

像很多攀冰的高级玩家认为的那样,这项运动其实更像是一场国际象棋的博弈而非简单的肌肉运动。有条不紊的、有策略的攀爬才能让你更接近目标。当你去想象在冰冻的山峰上去攀爬确实难以置信,但是北岸冒险公园(North Shore Adventure Park)的专业攀岩者坚持认为,攀冰比看起来容易。 当你学会一些简单的指示后,你就可以开始在冰上挥动你的工具并进行攀登。这项运动,本身的身体活动非常简单,但运动量大又极富挑战,可以在寒冬中保持身体的温度。因为也成为了明尼苏达州冬季非常流行的一种户外运动。

毫无疑问,明尼苏达州东北部是该州攀冰活动最多的地区。 苏必利尔湖海岸线上分布着数十个瀑布,随着水银的浸入,曾经雷鸣般的水流凝结成巨大的冰壁,这绝对是攀冰的最佳条件。鹅莓州立公园的瀑布是一种颇受欢迎且相对简单的攀岩壁。在这处瀑布附近还有另一处难度较大的攀岩壁。在更长的湖岸沿线,大马雷地区拥有明尼苏达州两处最佳(也是最长)的攀冰:夜幕瀑布和喀斯喀特瀑布。

据雷锋网了解,搜狗在多模态领域的探索和应用早已有之,包括此前在AI合成主播上的应用,结合了语音、唇语、表情动作等交互形式,最终形成的AI合成主播参与了2019年全国的两会报道,甚至还走出国门,与阿布扎比媒体集团达成合作,将推出全球首个阿拉伯语AI合成主播。

语境引擎整个工作过程具体可以理解为:

“我们公司的终极目标是走向做VPA,即一个软件形态的AI助理,可能以硬件为载体,也可能放在搜狗输入法、搜狗的搜索引擎上。搜狗VPA的形态,是一个任务导向,中间会看到以对话为主的形象。同传这个场景下,我认为搜狗同传就是一种形态的VPA,是具备了同传能力的VPA,它可以与人做同传交互。”雷锋网雷锋网(公众号:雷锋网)

显然,就目前而言,AI同传还无法完全取代人类同传。

机器的感知能力越来越强,因为机器在持续学习( 每天在搜狗输入法上的语音识别总次数在8亿次以上)。但是机器与人类最大的差距在翻译上。就翻译的“信、达、雅”来看,机器差不多可以实现“信”,在部分场景能够实现“达”,但是人可以做到“雅”。 就翻译而言,AI同传面临着直译的问题,例如,讲一个笑话,能不能get到讲者的意思并把它翻译出来,讲到一个谚语是否能够理解,人与机器最大的差距还是在语言理解能力上。所以搜狗一直在做语言AI,要把我们的重心回归到语言这件事儿本身上来。

雷锋网原创文章,。详情见转载须知。

从搜狗同传3.0技术框图中可以看到,语境引擎主要由「PPT文本理解」和「搜狗知识图谱」两部分组成。

搜狗同传3.0:引入视觉能力、知识图谱,构建语境引擎

“在迭代到2.0版本后,我们一般会投很多人针对演讲者要讲的内容做优化,但是我们往往很难拿到演讲稿,所以只能在网上找与这个人相关的背景知识,以前讲过的内容,基于此做模型优化。”

这是搜狗同传研发团队当时在进行版本迭代时主要考虑的问题,也是最终搜狗同传2.0试图去解决的问题。

十多年来,桑德斯通冰雪节一直是明尼苏达州首屈一指的攀冰派对。该节日在明尼苏达州的第一个专门为攀冰设计的公园:罗宾逊公园(Robinson Park)内举行。这个节日旨在庆祝冬季的所有户外活动——从攀冰到滑雪,冬季露营和雪鞋徒步等各项活动应有尽有。

AI同传尚难取代人类同传,多模态成趋势

“我们是第一个在技术上主张多模态的公司,此次搜狗同传3.0也是从语音跨到了多模态,在这种多模态下将我们对于知识的理解、对语音的理解放进去,我们的同传就也开始具备一定的认知能力。”

在实际测评中,搜狗同传3.0的评测得分为3.82分,人工同传的评测得分为4.08分。

德卢斯冰雪节(2月1日-3日)

桑德斯通(Sandstone)冰雪节提供的众多冰雪路线为不同级别的玩家提供选择。从中等线路开始你可以开始你的第一次攀冰,或者高阶玩家你也可以在这里进行终极挑战,史诗级的难度甚至让很多玩家每年来到罗宾逊公园再次挑战。这恐怕就是极限运动的魅力。初学者可以从基本的入门课程开始(甚至可以选择仅限女士参加的课程或者男女混合课程),以便了解冰上的安全性,攀冰设备和基本动作。这些都是你首次攀冰需要知道的知识。对于那些经验丰富的攀冰者,这里也提供中、高级课程。此外这里还有一个期三天的冬季节庆,参加这个节日期间,与会者可以参加登山课程,冬季露营等。你在这里还可以认识新的户外爱好运动者。

据搜狗官方公布信息来看,通过构建语境引擎升级后的搜狗同传3.0系统的实测数据如下图所示:

这样的能力最终在搜狗同传3.0上得以实现。

这也就有了2018年发布的搜狗同传2.0的几点重要能力的升级:通过行业深度定制和专属模型训练(例如事先上传演讲稿或给出重点词汇进行训练),输出行业方案。

多模态同传,顾名思义,聚合多种交互形式实现同传的能力。

这要从搜狗此前两代同传系统,以及此前对数千场会议的同传支持的痛苦经历上谈起。

12月21日,基于语境引擎的搜狗同传3.0以多模态和自主学习为核心,加入视觉和思维能力,这是AI同传在加入诸如视觉AI、知识图谱等能力后的再度进化。

据陈伟介绍,搜狗同传3.0相对于上一代产品主要有三方面能力的提升:

自1970年代以来,Casket Park一直是Duluth攀冰活动举办地的中流—柱。如今,该公园已经开发了将近20种冰和混合冰(岩石与攀冰的结合体) )的路线,你可以在任何线路上磨炼你的意志力。德卢斯冰雪节(Duluth Festival)与桑德斯通冰雪节一样,提供单独的女性课程,当然也有男女混合的课程,范围从入门级到中级。非攀冰的的冬季户外运动爱好者可以专业的户外运动教练的带领下体验胖胎骑行,或者只是在休息区手握一杯热饮,观看攀冰者对自我的挑战,为他们欢呼加油。

桑德斯通冰雪节(1月4日—6日)

“语境引擎能够真正做到对PPT内容的理解和推理,”陈伟点出搜狗同传3.0的核心能力所在。

为什么经过两代迭代后,搜狗会在同传系统中引入图像识别的能力?

再往北一点,就到了明尼苏达州北部的重要城市德卢斯。德卢斯冰雪节已经是第三届了,仍然是在Casket Park内举行。这个盛大的冰雪节虽然只有短短几年历史,但它绝对是德卢斯最棒的冬季节庆。德卢斯这个城市不但是热门的旅游目的地也是户外运动的休闲胜地。城市本身地处高纬度,又多丘陵,所以特别适合开展各项冬季户外运动。如果你听到德卢斯举办攀冰节,那简直就像是听到明尼苏达州拥有湖泊一样的自然。

回归到语言本身时,各类传感器越来越多,设备能够收集到的数据及数据种类越来越多,亦即越来越多的多模态数据逐渐可以获得,当有了多模态数据后,相关模型和算法也逐渐开始受到业界所关注。

2016年,搜狗在「第三届乌镇互联网大会」上发布了行业第一个商用AI同传产品——搜狗同传1.0。这是搜狗同传的第一代产品,同时也是搜狗进入同传这一领域的第一次商业尝试。

“1.0阶段我们提供的是通用的同传能力,在实际应用过程中遇到的最大的问题是:每一位讲者在演讲时的背景信息和语义信息不一样,可能今天我们需要支持医疗会议,明天需要支持航空会议,我们很难获取这类专业会议的‘语义词’。”

也因此,搜狗仍在继续优化个性化能力,也就是搜狗同传的定制化能力,“我们希望让机器自己定制一个好的语境。”

这样现场识别PPT内容,结合搜狗百度百科知识图谱,构建语境引擎,是否对算力和硬件有特殊要求呢?

其实在这样的升级迭代过程中,搜狗同传的通用能力从2016年的搜狗同传1.0到2018年搜狗同传2.0已经有了明显的提升,“但是就通用能力和个性化能力上,在嘉宾演讲的PPT内容的识别和翻译效果仍有较大提升空间,这是一定存在的。”

当然在进行这场户外活动之前,你肯定是需要一些培训的。但如果你只是想要更多的了解这项运动,那没有比攀冰节更合适的机会了。明尼苏达州每年会举办两次攀冰节:桑德斯通冰雪节和德卢斯冰雪节。这两个大型的冰雪节庆不仅仅是让你简单了解攀冰这项运动,它更代表着明尼苏达当地人对于冬季的热爱:徒步探索冰冻的未知世界,学习新技能,在篝火旁分享温暖的食物和丰盛的啤酒,并拥抱明尼苏达州冬季绝佳的自然景观。

具体搜狗同传3.0技术框图如下图所示:

“但是大家一开始还是把多模态这件事想得太简单了,多模态的实现过程不是简单把模态融合在一起,从我们这些年在上面的认知来看,是一个蛮复杂的过程。”

回看最初的搜狗同传1.0时,搜狗AI交互技术部总经理陈伟认为当时实际应用中遇到最大的问题是难以获取各专业领域的“语义词”,这也影响了最初这一产品的识别及翻译的准确度。

从人到机器:困于行业知识的AI同传,破局定制化难题

第一,从感知层面来看,获取的信息从此前单模态信息到现在,引入视觉能力,得以获取多模态信息; 第二,从认知层面来看,通过OCR识别或视觉能力获取演讲者PPT内容,在语境引擎的帮助下,提取出这些专业知识的核心,通过知识图谱的方式,对内容进行进一步扩展,形成整个演讲者相关语境信息,并与演讲内容进行关联; 第三,我们拿到个性化信息后,进行实时语音识别、机器翻译,并生成个性化、实时定制引擎。 在整个搜狗同传3.0系统工作过程中,特别加入视觉能力,并引入了语境引擎,这也成为解决前文提到的专用性、个性化同传需求的关键。

在这个过程中,搜狗的机器翻译模块也从1.0系统的RNN模型、2.0系统的Transformer模型,升级为3.0多模态翻译系统,3.0系统是在Transformer模型基础上,将搜狗百科知识图谱和翻译历史融合到翻译系统中,并实现了流式解码。

如何获取这些专业的“语义词”,以此来训练专用的模型,改进通用的1.0版本?

尽管2.0版本考虑到了专业化内容的优化,但是在具体应用过程中,由于难以会前获取实际演讲者的演讲内容,并未能用这些专业内容进行定制模型优化。

12月21日,基于语境引擎的搜狗同传3.0以多模态和自主学习为核心,加入视觉和思维能力,这是AI同传在加入诸如视觉AI、知识图谱等能力后的再度进化。

当提到搜狗在多模态语音方面的技术发展,陈伟表示:

引入视觉能力、加入知识图谱后的搜狗同传3.0,能够完全取代人类同传吗?

此次搜狗在12月发布的搜狗同传3.0同样在基于基本的语音交互能力时,加入了文字和图像两类交互能力,进一步将嘉宾ppt内演讲相关内容,语音识别准确率提升了21.7%,翻译准确率提升了40.3%。

这其中,搜狗还在同传系统中加入了识别翻译协同模块,对翻译模型的输入文本进行优化,这一模块的作用在两次迭代中也从最初、最基本的标点断句,逐渐升级为拥有标点断句、文本顺滑、语义单元三大能力。

之前几届的冰雪节,晚上还会举办各种夜间活动,包括在克莱德钢铁厂(Clyde Iron Works)举行晚宴,在弯曲桨啤酒厂(Bent Paddle Brewery)举行的“登山者社交派对。有现场音乐表演,以及由世界著名的登山者,如Margo Talbot,Rebecca Lewis和Nathan Kutcher进行的演讲等多项活动,保证这个度假期间你能有

陈伟解释称,现场做PPT内容识别的时候可以直接通过截屏(本机播放PPT)或笔记本电脑上的摄像头来完成,语音训练用英伟达常规的P40或V100进行训练,训练推理方面没有额外增加负担。

在会议现场,通过OCR(例如播放PPT的笔记本),将演讲嘉宾PPT全部内容被转换成文字信息,并就此文字信息抽取与作者领域相关的个性化内容和知识; 基于这些知识,结合搜狗此前基于搜狗百科构建的知识图谱再扩充一些知识,汇同语音识别的内容为语料训练模型,形成搜狗同传3.0的识别翻译模型。

据搜狗官方在发布会上公布的信息显示: