导读:7月28日,腾讯云在北京举办云+社区沙龙,邀请来自腾讯与四川云检科技的五位AI技术专家,分享他们在专业领域的AI开发经验,帮助开发者在具体行业场景中实践AI技术。现场有近400位开发者参与,答疑及茶歇环节气氛热烈,多位开发者与讲师就演讲内容展开讨论,表现出对AI浓厚的开发兴趣。
AI技术已经家喻户晓。不论是移动终端设备,还是企业系统平台,都开始集成AI能力,现阶段看,AI融合到各个行业的潜力非常巨大,能够在众多场景中发挥作用,比如云计算。在今天数字化转型的浪潮中,企业上云成为了新常态,云上大量的数据、丰富的应用通过AI技术,能够解决很多问题,因此云与AI的融合也是新常态。
因为腾讯强大的社交、游戏等基因,腾讯AI有着非常丰富的实践场景,在朋友圈爆款应用、OCR识别、医疗、游戏等场景中都运用了AI技术,开发出了大量的新功能和能力。即便如此,AI在这些领域的尝试有些还在初级阶段。如何在具体业务场景中提供匹配的能力,利用AI把问题简单化,释放生产力,依然非常具有挑战性。
因此,7月28日,腾讯云在北京举办云+社区沙龙,邀请来自腾讯与四川云检科技的五位AI技术专家,分享他们在专业领域的AI开发经验,帮助开发者在具体行业场景中实践AI技术。现场有近400位开发者参与,答疑及茶歇环节气氛热烈,多位开发者与讲师就演讲内容展开讨论,表现出对AI浓厚的开发兴趣。最后,所有开发者们与讲师们合影留念,结束了这次盛夏中的、充满前沿知识洗礼的趣味沙龙。
朋友圈爆款背后的计算机视觉技术与应用
在现阶段,强调AI在场景中落地,就是希望AI走进千家万户,融入整个社会,而不仅仅是曲高和寡的模型,这就是AI技术产业化的趋势。比如,朋友圈里像军装照、武士青年这种有趣的互动活动,就是目前探索出来的计算机视觉最快能够来到大家身边的落地应用。对于开发者来说,通过对具体案例流程的了解,就能够快速的掌握开发所需要的能力,从而实现自主创新开发。
腾讯大数据与人工智能中心AI技术专家叶聪在沙龙活动中就以朋友圈一些爆款活动作为切入点,帮助开发者们梳理了当前关于计算机视觉与技术的应用。叶聪表示,腾讯云现在非常讲究AI场景化,在很多的应用中都集成了AI能力。
五四青年节的活动《重温五四,你最像哪位青年?》就是腾讯首先开始做的。通过人脸检测与分析技术、人脸检索技术,将用户上传的照片与特定形象进行脸部层面的检索对比,通过匹配分析找出数据库中外貌特征与用户最为相似的一张照片,这个创意为后续AI娱乐产品设计提供了参考。
相比于学术角度对计算机视觉的定义——如何让计算机从图像和视频中获取高级、抽象的信息,从工程角度来看,「使机器模仿人类的视觉能力变得自动化」的定义则更明了。叶聪介绍,计算机视觉使机器可以部分代替人力理解图片中的信息。计算机视觉还包含一些分支,主要包括物体识别、对象检测、语义分割、运动和跟踪、三维重建、视觉问答、动作识别等等,同时新的分支还在不断出现。
现在比较热门的视觉应用包括人脸识别、无人驾驶、语义分割等。语义分割在AI领域比较常见,一般指词性的分割,或者词的分割。而图像分割里面的语义分割一般指的是把图像里面的不同类型的对象进行标注和区分。
在机器识别领域,现在已经有很多比较成熟的特征提取方法。比如边缘检测方法,图片对象的局部对称性,尺度不变特征,利用灰度的原理等等,这些算法都能够实现提取,但不存在最优方案。在图像分割和对象检测领域也有一些其他算法,例如分水岭算法,分水岭顾名思义就是利用图像的灰度特性把这个图像整个灰度的曲线显示出来。另外,对象检测的常用算法叫主观形状模型,比如以人脸为标准,人脸上有68个点,对这些点进行变换,再去实现匹配目标。
图像识别领域的发展经历了CNN,R-CNN,Faster R-CNN等几个阶段。现在图像识别的流行趋势会趋于大自然的发展逻辑,是一个大循环。那么,基于这些科学实验基础,腾讯云是如何支持AI应用的呢?以五四青年活动为例,它是解决图像匹配的一个活动。首先,从训练数据开始,一般是民国时候的老照片,对它进行提取和标注数据,因为每个照片都有标注,就会生成模型。当用户玩游戏时上传照片测试数据时,会进行特征提取和建模,模型会返回一个分类,这个分数不是执行度,不完全可以参考。最后将会把一个分数最大的值返回到前端,生成页面,这是整个流程。
再以人脸融合类的应用来看,比如军装照。它的流程首先会对图像的人脸部分进行关键点的定位,把人脸上的特征提取出来,然后会对图片进行一些旋转,把它跟模版图进行统一化。下一步会把上传图片的人脸部分根据特征值抠出来,它就会跟模版图进行融合。等融合后如果上传照片的各种光线角度不完全一样,再对图片进行优化,把光影、曲线调得比较平缓,这样就呈现了非常好的效果。
对于开发者来说,掌握了这些能力,在开发出一款有趣的应用之后,如何实现商业化落地?直接把它放在网上就可以让用户下载使用吗?实际上远没有这么简单。现在的普遍做法是,都会采用云服务,尽量不在物理集上部署。为什么需要在云上部署AI应用?因为这些应用一般都会有短时间达到特别高的峰值,持续一段时间会有很快的回落。如果通过自己的IT基础设施来响应这些需求,在成本上会非常巨大,难以承担,而利用公有云,可以把一些机器的成本释放掉,这是目前从开发应用到实现收益的一整套通用商业流程。
目前,腾讯云AI目前能够支持的领域比较多。包括各种人脸合成、身份证识别、智能监控、人脸轧机还有语音合成、关键词搜索等方面。同时,腾讯云的机器学习的平台可以帮助开发者们快速去实现模型。
最后,如何让AI落地到具体场景中,除了技术层面,开发者们如何打磨产品让用户可以简单的使用复杂的技术?通常来说,从有想法到落地是一个非常漫长的过程,它分非常多的环节。首先要有AI算法的专家,同时要有AI工程实践经验丰富的人,最后,还要有更多的产品开发人员把它打磨成产品。
OCR的应用集锦及背后技术
OCR是近年比较火热的领域。像身份证识别、车牌识别等都需要运用到OCR技术,而像身份证识别的场景又非常多。因此,OCR作为一项通用型的基础技术,有非常广泛的用途及商业价值。在很多需要人力资源来完成文字识别的工作,比如快递行业的运单识别,保险行业的资料识别,通过OCR技术的利用实现了较大程度的生产力解放。对于开发者来说,借助于OCR技术开放的API,即可完成在各种生活场景的应用开发。
腾讯AI资深技术专家冀永楠介绍说,OCR的历史最早可以追溯到上世纪六七十年代,当时邮寄信件的邮编即是OCR服务的最早雏形。目前的OCR应用可以分为两个维度,一是表格式的OCR和通用的OCR;二是印刷体和手写体OCR。现在的阶段,表格式相对容易、通用式相对困难;印刷体相对简单,手写体相对困难。
腾讯云现在能够提供多个场景中的印刷体OCR服务。在通用型的OCR场景中,除了证件,还能够识别驾照、车牌、银行卡、名片等等。另外,OCR服务要求准确,以及完备,即能够识别中英文和字符。腾讯云正在由常用语言和字符,例如中英文等往外扩散能力,将识别范围更加扩大。
目前,在银行业等对数字高敏度的行业,对OCR的应用广泛且要求极高。腾讯不仅是第一家将手写体应用在实际场景中的,而且数字的识别率也高达90%以上,单字的识别率在15毫秒以内,复杂汉字超过80%。腾讯云的OCR服务在权威测评中表现也非常出众。在国际模式识别协会(IAPR)举办的文档分析与识别、模式识别领域世界上最权威的国际学术会议ICDAR(International Conference on Document Analysis and Recognition,即国际文档分析与识别大会)上,腾讯OCR识别在ICDAR2015 「Focused Scene Text」场景文字识别任务、ICDAR 2015「Robust Reading Competition」的自然场景文本检测项目中均得到第一名。
腾讯云现在可提供基于各种场景下的OCR服务接口,开发者可以免费使用这些服务来搭建自己的应用。比如,开发者实际需要开发的一个具体场景的软件,需要用到手写体识别或者做一个通用的OCR识别时,可以直接在腾讯云上调用对应的服务来完成应用开发。
腾讯云OCR的应用场景很多,目前在快递运单识别以及保单识别上有明确的目标客户。类似于这种项目一般是定制化服务,都是针对性地解决一个具体的问题。腾讯云根据具体场景下的问题和具体的生产流程来开发一套系统,或者开发一套流程来配合实际的业务,来提高生产效率。
以快递运单识别为例,快递手写运单必须入库才能进行投递,人工识别录入的效率很低,在运用腾讯云的OCR系统之后,每日处理量可达到一千万单,相当于三千多个人三班倒的工作效率。另一个案例是泰康核保,在通常的购买健康保险流程中,都会对购买者病史进行审核,审核包括购买者之前的体检资料以及指定医院的体验资料,通过这些资料分析,来判定购买者身体状况。现在的解决方案是使用腾讯云的OCR,同时与泰康的医疗专家共同设计医学知识库加入到定制化系统。
除了以上两个场景,腾讯云在不同的OCR应用中还有江苏银行、小米等客户。包括工商管理总局的广告监督局也在使用腾讯云OCR的多款服务。
智慧工地:履约考勤系统的应用实践
在目前的智慧城市、智慧工地等领域的建设也充分应用了数字化技术。为响应交通运输部公路品质工程建设的号召,工程建设需要加强四新技术的应用,包括新材料、新设备、新技术以及新工具的应用。在工程项目相对灵活的突发的工作环境中,履约考勤系统往往承担着较大的负荷,现在利用AI技术,就可以实现履约考勤管理的智能化。而一般开发者也可以根据一般企业的需求利用AI技术来开发有特点的产品。
四川云检科技发展有限公司研发总监吴琛表示,针对智慧工地履约考勤系统的应用实践主要分为六个部分,包括前沿、产品分析、系统架构、主要技术、功能分析、应用展望。当前的履约管理的作用是为项目建设工程、质量保驾护航。在实际的应用当中,履约考勤的对象包括施工单位的项目经理、总工、安全生产负责人、设计单位的驻地设计代表、试验检测工程师等一些重要的人员,它针对的是重要的人员而不是其他一般员工。
当前主流的考勤方案大约有7种,包括指纹考勤、ID卡考勤、纸卡钟考勤、人脸识别考勤、虹膜识别、指静脉识别、摄像考勤机。这些方案在实际应用中,在兼顾效率和避免冒名顶替方面都不是很理想。而因为工程建设与参建方的监督与被监督关系,决定了管理部门对履约人员信息的真实性有更高的要求。
吴琛介绍说,通过用腾讯云的AI技术,增加的云端功能非常重要。比如,在施工现场普遍存在人员变更的情况,人员变更以前需要业主或者项目部自行变更,现在有了AI技术,变更的信息可自动识别出来。目前考勤的智能化主要从六个方面考虑,第一是确保在云端;第二是基于AI;第三是基于云计算;第四是要连接大数据;第五是需要是移动应用;第六是支持智能设备。
同时,它还需要具备五个特点:一是具备人员人脸基本信息的采集和录入功能;二是能够基于人员人脸信息的自动识别、采集、比较;三是支持人员信息与人员身份证信息的核验;四是支持考勤地点的设置及异常考勤位置的判断;五是支持关键岗位的异常考勤信息预警以及关键岗位缺勤信息进行预警,支持对履约人员信息变更进行在线管理。具备这些能力,就能在云端对考勤的结果进行验证,实现智能化的考勤管理。
腾讯云的智慧考勤主要包括四个主要技术方案。第一是人脸对比,腾讯云的人脸对比是根据面部特征计算两张人脸的相似度,自动进行身份鉴别;第二是个人证核身的功能,腾讯云的人证核身也是人脸核身,通过用户自拍视频或者一张自拍照与另外一张用户事先留存的照片进行人脸验证,确认用户身份,主要用来帮助提升业务办理效率,降低人力成本;第三是活体检测,腾讯云的活体检测是通过人脸特征点定位跟踪识别进行3D人脸重建模型,判断是否为真人,它支持多平台,包括CPU、GPU计算模式,灵活部署;第四个是基于LBS的定位服务,通过电信移动运营商的无线电通讯网络,GSM,CDMA网获取移动终端用户的位置信息,包括地理坐标或者是大地坐标。
吴琛介绍说,云检智慧履约考勤系统目前能够实现考勤数据的动态分析,包括对缺岗异常的数据实现实时预警的功能。主要有四个功能:一是人脸识别考勤机,主要作用是前端数据采集,包括人员信息登记,人脸考勤以及数据上传;二是用到移动端的APP,主要用于人脸考勤、人证核身;三是履约考勤管理云平台,主要是针对考勤管理、审批管理、统计分析、系统设置等;四是用到API,提供移动APP调用应用程序的接口,主要是腾讯云技术服务以及人工智能当中的人脸对比,人证核身的这类应用。
除了智慧工地领域,人脸识别解决方案在很多场景中应用非常广泛。随着技术的发展、市场扩大,人脸识别技术在现实生活中发挥的价值及作用也越来越大。
游戏中的AI技术应用
对游戏AI的理解因为身份的差异,其目标各有不同。对游戏开发者而言,运用AI是为了增进用户体验,增加玩家活跃度。现在几乎每款游戏都有运用AI,比如说射击类游戏会有地图,如果有一个非常好的AI帮助玩家去探索地图会非常节省时间,因此AI对于小游戏开发者来说非常重要。
腾讯高级研究员王亮介绍说,业界的游戏AI技术常用的方法一般是三种。一是行为树;二是基于搜索方法;三是基于学习的方法。今年游戏行业最有影响的是Dota2,它在5个特定英雄等限制条件下的AI能力能够超过90%的玩家,它就是采用强化学习的方法,其它的很多主流游戏都在尝试使用强化学习解决。
以风靡的王者荣耀为例,MOBA游戏AI的做法和遇到的问题有哪些?因为王者荣耀是一款实时对战的游戏,以竞技对战为主,复杂程度表现在英雄角色会非常多,也会带来很多关于AI的复杂问题。第一是MOBA类游戏操作序列及状态空间非常大;第二是游戏包含很多知识,如何去表达;第三是MOBA决策问题复杂度高。
对于这些问题,解决方案方案分为三个方面。一是引入框架进行分层,对任务分层和场景切分;二是引入了多模态的特征表达方式;三是采用多深度学习模型结合。
了解了基本情况后,在游戏AI开发的时候还会遇到很多坑。在游戏开发阶段需要什么样的环境?第一个需要环境是模拟器的问题。目前主要是基于这个环境来调优。AI接入可以使用基于服务器架构,游戏引擎跟算法引擎是分开的,而它们之间是通过通信的方式来进行处理的,它的优点是游戏引擎跟模型进行偶合,并且支持在线学习,因此可以不断强化和更新版本。
就整个游戏AI领域来说,主要是强化学习。与之前最显著的变化就是——以前是基于规则,现在主要基于学习来开发研究。而如果是基于深度学习的方式,就至少要提供相关的环境给开发人员,以及怎么更新迭代。另外,现在的游戏AI还是比较有难度,但同时也充满机会。
乳腺癌识别中运用的AI技术
随着时代的进步和经济发展,人们的健康意识越来越高,同时伴随着AI技术的发展,AI医疗理所应当地成为了互联网行业内的风口。
腾讯觅影高级研究员江铖表示,腾讯最近正式对外发布了AI乳腺癌症诊断系统。选择乳腺癌这个领域有两个考虑,一是因为对于女性来说乳腺癌是所有肿瘤当中发病率最高的一种,发病率约在16%-17%之间,严重危害女性的健康;二是因为乳腺癌虽然发病率很高,但是治愈率是较好。如果在较早期发现治愈的可能性非常高,对于美国来说目前五年的生存率是在89%,而中国只有83%。这主要是因为中国人口基数过多,有经验的看片医生较为缺乏,而目前应用AI技术就能够有效缓解这个矛盾,最大限度地帮助患者和医生。
现在对乳腺癌的诊断主要依赖超声、钼靶、核磁共振、病理和基因等,腾讯云的目标是能够把这些数据模态有机结合起来,形成一个完整的体系,从而提高对乳腺癌的诊疗技术。当前最主流和有效的筛查诊断方式是钼靶,腾讯的AI钼靶乳腺癌诊断系统已经发布,并已经落地到30多家三甲医院进行试用。
腾讯云在乳腺钼靶主要实现了三方面的功能。第一是实现了疑似病灶的定位;第二是提供乳房的良恶性判定;第三是能够自动生成影像报告。
这三方面的功能是如何实现的呢?主要基于一个包括三个维度的技术框架。其中架构前端是钼靶影像的前处理层;中间层是AI学习模型;最后是通过医生反馈对前两部分进行的动态更新。
在中间层AI学习模型上,腾讯云单独设计的方案有四个突出优点。第一是传统的网络输入通常都是单图输入,而现在的方案可实现对左右乳进行对比的四张图同时输入;第二是采用多尺度网络,使得图片输入网络前无须缩放;第三是渐进式的网络构建,这种方式类似大脑学习过程,它把疑难问题分解成若干个相对简单的问题然后逐个解决,在构建网络时由局部到整体,由单幅图像到多幅图像;第四是自步学习的训练方式,类似于大脑由易到难的学习方式,先将训练的样本按难易程度进行分类,在训练过程当中由易到难逐步把样本加进去,对模型进行多轮训练,这可以让模型达到最好效果。
除了基础模型,根据医生的反馈,对于新接入医院的数据会对模型进行迁移学习,实现动态更新。在模型训练的过程中,一个重要发现是——AI见过的疑难病例的数量和种类很大程度上决定了AI系统的上限。为此定期从数据库和线上数据中挖掘有价值的疑难病例,并进行标注。同时,其中的一部分病倒还会与三甲医院专家讨论,利用病理或者其他数据进行交叉确认。
现在,腾讯钼靶AI模型已经达到了非常高的精度。其中,肿块探测方面可以达到90.2%@0.2FP;钙化检测精度更高,可以达到99%@0.2FP;对于良恶性分类,可以达到87%的敏感度和96%的特异度。除了钼靶外,现在对病理方面也开展了相应的研究。目前乳腺癌病理研究主要解决两方面,第一个是功能组织学分级,即定义恶性肿瘤恶性的程度,它包含核分裂计数、核多行性打分、腺管形成程度三项内容;第二是免疫组化,使用不同染色片进行分子分型研究。对于已经完成的有丝分裂部分,在学术界TUPAC专业比赛上,之前的冠军F1 score分值为0.73,现在腾讯的钼靶AI系统可以达到0.82,提升很明显。
这个精度的提升是归功于三方面的技术。第一点是使用了计算机的难例挖掘方式。经过多轮迭代然后在每一轮次对样本进行整理,由专家确认较难的标注,再放入样本当中进一步学习;第二点是图像的归一化,通过使用对抗网络将图像做归一化,达到提升;第三点是在速度上改进,抛弃原始计算机视觉当中将一整幅图切分的方式,采用共享计算和模型压缩的效果,让一幅病理片可以达到0.5秒级的处理速度,基本上接近于实时。
在核磁共振方面,腾讯也进行了相应的研究,开发了一种半自动的高效病灶标注工具。除此以外,腾讯还在超声方向投入人力,拓展研究边界,目前已经完成了数据准备工作。后期将继续对各模态数据展开深入研究,致力于把多模态的数据有机结合起来,造福患者和医生。
江铖的演讲之后,已经是傍晚时刻,现场开发者参与提问和交流的热情依然不减。此次沙龙活动,现场五位专家的演讲都聚焦在AI具体场景的应用案例,不仅给开发者们带来了理念上的启迪,同时腾讯云开放的AI能力也能够实质性地帮助开发者们实现便捷开发,把AI技术扩散到更多的应用场景中。