AI同传再进化：看懂PPT会思考，专业术语翻译准确率大幅提升40%-原创手记-慕课网

2019年即将过去，搜狗在语音技术的落地应用上不断突破，在12月的最后几天，搜狗又秀出了今年的最后一件“神器”——搜狗同传3.0。

搜狗同传3.0可以像人类一样，从语音和图像中获取信息，不仅会听，还能同时看图、查资料，从而提高了同声传译的准确性，在AI同传落地应用中属首创。

尤其是面对专有名词、专业术语较多的场景，相比传统只依赖语音的技术，搜狗同传3.0针对PPT内容将翻译的正确率提升了40.3%。

而且这项技术不需要复杂的硬件升级，只需一台带有摄像头和麦克风的笔记本电脑即可实现。这让未来不同语言之间的无障碍电话会议成为可能。

前不久，在北京的某一场科技大会上，搜狗同传3.0强大的能力得到了验证。它快速准确地翻译了王小川的演讲内容，并将知识图谱同步显示在屏幕上。

即使演讲内容中有大量的互联网、科技行业属术语，也没有难倒它。

早在2016年的世界互联网大会上，搜狗同传就完成了第一次亮相。经过了3年的迭代升级，搜狗同传3.0，集成了哪些最新的技术突破呢？

近日，在搜狗同传的一场交流会上，搜狗AI交互技术部总经理陈伟告诉我们，之前的AI同传都只是听，而搜狗同传3.0是目前业内首个推出的多模态同传技术，在同行中处于领先地位。

多模态同传，即AI获取信息的渠道不再是语音，还包含图像等其他内容。这种多模态的交互方式是搜狗一直坚信的趋势，也是与人最自然的一种交流方式。

实现这一切的是搜狗的语境引擎，是它为演讲者构建了个性化的认知语境。

语境引擎基于搜狗知识图谱和百科的知识推理能力，将OCR获取的PPT内容自动生成核心知识。

然后通过搜狗的知识图谱——“搜狗知立方”进行实时推理拓展，获取背景知识，同时基于搜狗百科的中英术语库得到中英双语对照，优化同传识别和翻译的效果。

语境引擎能够让AI同传跟随演讲者一起“思考”，是搜狗在该领域的一大技术创新。

让AI同传会看会思考

大会同传，是搜狗为多模态语音识别找到的第一个商业落地化场景。

业内通常只是把语音识别+翻译技术硬套在这个场景中，未做任何优化。

搜狗注意到，同传的应用场景，大多是一些专业的商业、学术会议场合。以往的AI同传一般只适用于通识场景，遇到专业的术语则无能为力，而术语往往又是理解语义的关键所在。

其实，AI也可以从人类的交互方式中汲取经验，这就是搜狗同传3.0的设计思路。搜狗把其中用到的技术叫做“语境引擎”。

而大会同传的一个特点是，观众获取信息的途径不仅有语音，还有图片和文字等语境信息。这种多模态的交互方式正是搜狗过去所擅长的。

看，是搜狗也是业界第一次赋予AI同传视觉能力。基于搜狗的OCR技术，搜狗同传3.0在听取演讲者语音的同时，还能将屏幕上的PPT图像转化为文字。

想，是搜狗将PPT中的文字内容进行理解，提取知识，再在核心知识上做推理，进而扩展出整个演讲的领域知识，对同传内容进行个性化的加强。

搜狗的输入法为语音识别积累了技术，搜狗的搜索引擎、百科词条又为搜狗积累了大量的知识信息，让搜狗能够打造自己的知识图谱“知立方”，最终在大会同传这一特殊场景下得到落地。

在图像识别、知识图谱的加持下，搜狗同传3.0相比传统技术，针对PTT内容语音识别正确率提升了21.7%；在而在翻译的正确率上，搜狗同传3.0更是提升了40.3%。

搜狗同传发展到3.0不是一蹴而就，是在不断的技术探索、落地实践中完成了产品的升级。

从1.0到2.0，搜狗同传已经陆陆续续支持上千场的同传的会议，有数千人使用了搜狗同传，大量的实际应用场景为搜狗积累了宝贵的经验和数据。

陈伟表示，在2.0时代，搜狗就已经考虑到了针对同传演讲内容的个性化定制，比如提取获取演讲者的PPT内容来建模。

但是由于种种原因，提前获得完整演讲资料很困难，每场演讲做个性化定制也不利于提升AI同传的泛化能力。

搜狗本身在搜索引擎上的积累，为AI同传的升级带来了新的思路。3.0版就是利用OCR技术提取的文字和搜狗百科中的中英词汇进行对比，从而优化了同传的识别和翻译效果。

搜狗同传3.0的进化不仅仅是正确率的提升，更重要的是标志着搜狗同传技术已经从单纯的语音，变成“语音+视觉+大脑”的全方位多模态感知系统。业内除了搜狗外，还没有一家公司能做到这一点。

在纵向的对比中，搜狗同传翻译能力相比前代提升明显。

据搜狗同传的产品总监张晶晶的介绍，针对某一个论坛的数据评测可以看到，2.0版在同传中的得分是3.41分，3.0版的得分是3.82分，而人类得分是4.08分，搜狗通过“语境引擎”一举将人类和机器的差距缩小了60%以上。

搜狗认为，多模态技术是未来人机交互的发展方向。从搜狗同传的技术升级之路中，我们也可以看出搜狗下一步的计划。

陈伟说，搜狗同传3.0展示了搜狗在AI方面的核心竞争力和技术驱动创新上的成果。

软件方面，2018年的IWSLT国际口语机器翻译评测大赛上，搜狗击败讯飞、阿里、APPTEK、AFRL及KIT等国内外多个对手，获得第一就是能力很好的证明。

近期，搜狗在OCR识别权威比赛ICDAR2019挑战中，刷新了任意形状文字识别（ArT）中检测、识别、端到端三项任务的新记录，充分体现了搜狗在文字识别领域的领先优势。

硬件方面，搜狗并没有贸然进入白热化的智能音箱市场，而是另辟蹊径开辟了智能录音笔这个新的AI硬件战场，并且成为其中最大的玩家。为将来推出多模态硬件产品积累了经验。

同时，作为一家以搜索引擎技术起家公司，搜狗在知识图谱上具有得天独厚的优势。

以上这些技术和商业上的经验，都可以反哺搜狗的多模态交互。

在过去的一年里，搜狗已经完善了多模态的输出（虚拟主播），今天搜狗开始向多模态输入（同传3.0、语境引擎）的落地迈出了第一步。未来完整的多模态交互生态会是什么样？或许2020年搜狗会给我们答案。

— 完 —