让机器像人类一样多模态交互,会是物联网机器人的胜负手吗

让机器像人类一样多模态交互,会是物联网的胜负手吗?
技术这个事情,很多时候不是一蹴而就的。
更多时候,是大家先看到了一个东西非常美好,结果左发展右发展也发展不起来,在吃瓜群众们兴奋地送上一首《凉凉》之后,搞不好哪天却突然一个胜负手抛出来,一切又都不一样了。
曾经的移动通讯、触屏交互莫不如是,今天的3D打印、VR说不定也在重复这个套路。更明显的可能是物联网。这个我们念叨了好多年,虽然也一直在发展,但始终没有大热的技术,到底在等待什么呢?
等待AI?但是音箱刮过一阵语音交互的风潮之后,IoT设备搭载语音控制模块也火了起来。可是直到今天,我们好像发现物联网还是那个物联网,基本没什么变化。
让我们往更深层开个脑洞,“AI of Things”在等待的,可能不仅是语音交互,而是耳目鼻口耳协同工作的多模态AI交互。
你不温柔,我不主动:为什么我们始终远离IoT?
首先我们要搞懂一件事:为什么给设备联网的方案推行了这么多年,我们身边,包括工业和工程领域,真正用到的物联网设备还是没有多少?
答案在于,光给机器设备联网是没用的。你家的桌椅板凳又不想聊微信逛淘宝看快手,它们要网作甚?
人最终需要的是服务,所以设备仅仅联网是没用的,联网之后必须能干点什么才行。这就需要两件事情:1、人与设备可交互;2、设备能够感知到人的需求。
在触屏、键盘和手机集成遥控模式,都被证明太麻烦之后,物联网开始把目光投向了能够提供自然交互与感知能力的AI。
机器能够听懂人类说话,并且产生对话并提供服务,似乎某种意义上从源头解决了物联网设备缺乏实际价值的尴尬。于是我们见到了越来越多搭载语音交互平台,能够实现对话的物联网设备。从电视、冰箱到家居设备,再到各种终端不胜枚举。
但实践下来发现,这种模式问题还是不少:比如语言控制不如屏幕控制那么精准,很多时候会误判指令和错误唤醒,比较语言充满了不确定性;再比如,语音交互的物联网设备还是缺乏主动服务的能力,只是换了操作方式而已,用户体验没有本质提升。
仅仅是“能听”,并且还经常听错的物联网设备,就像是两个人谈恋爱,其中一方从来不看你,不会知冷知热、嘘寒问暖,还经常搞错对方的意思,那另一方当然表示我懒得理你…
目前来看,把按钮换成了语音命令平台,隐藏的不确定性太多,而实际价值太少,很难成为物联网爆发的真正依托。
这种“你不温柔我不主动”的人机关系究竟怎么改变呢?
答案也许是让机器能够听和说之外,还要能看,能感觉,甚至能将五感联系到一起进行思考。
感知到交互:机器的五感俱全
所谓“模态modality”,是德国生理学家赫尔姆霍茨提出一种生物学概念。即生物凭借感知器官与经验来接受信息的通道,比如人类有视觉模态、听觉模态等等。
后来这个概念引申到人文科学领域,成为哲学和文学上的一种话语批评方式;而来到机器人和计算机科学领域,就成了机器与物理世界联系的通道。
假如我们把“模态”通俗地理解为感官,那么智能音箱就是只具备听觉模态的物联网设备,而加载AI分析能力的摄像头可以视为视觉模态的物联网设备。把听觉、视觉甚至更多模态组合到一起,多模态物联网也就诞生了。
事实上,在AI研究当中多模态转换是非常普遍的课题。比如一个很出名的AI研究方向是让智能体根据看到的某张图片来生成文字(也有看到文字生成图片和视频的),这就是让AI模型完成在视觉和语义之间的模态转换。
运用到物联网设备当中,今天主要的AI感知模态有三种:1。 语音交互,包括语音指令控制、语义理解、多轮对话、NLP、语音精准识别等领域;2。 机器视觉,包括自然物体识别、人脸识别、肢体动作识别等;3。 传感器智能,包括AI对热量、红外捕捉信号、空间信号的阅读与理解。
把这三种东西融合在一起,物联网设备就可以在单纯的能听会说之外,同时还用摄像头观察、用传感器判断。而比较前沿的多模态感知研究当中,还包括机器嗅觉,机器触觉和情绪理解等内容。
我们在等待的下一代物联网设备,很可能诀窍就是把这些模态给揉在一起,完成从多模态感知到多模态交互的体验。用一句我们十分熟悉的话说,就是要让机器身上的五感“生态化反”…
今天让人乐观的多模态交互型IoT
又能听,又能看,又有传感器的设备,听上去似乎有点过分乐观了。但好在综合了较多采访与观察之后,我们发现今年确实是值得为多模态物联网设备乐观一下的时候。
可以看到,很多双模态交互,甚至多模态混合交互的解决方案都在从实验室里走出来,甚至已经可以在我们生活中看到。这些解决方案更重要价值是作为案例,可以让更多企业、开发者和垂直行业看到多模态物联网的可复制价值。
举例来说,离我们最近的多模态AI交互技术投射在物联网设备上,大概就是用机器视觉技术进行嘴唇识别,来分离语音交互指令。我们可以看到很多实验室和科技公司,都在尝试用机器视觉来读取说话人的唇语和动作,从而判断每个声音指令的来源。
这种技术已经在国内被运用到地铁售票解决方案中,通过机器视觉来识别买票人,从而在地铁站的嘈杂环境中完成语音售票。
另一个我们能看到的例子是空调。在一些新的智能空调解决方案中,空调会在语音交互的基础上通过机器视觉来判断用户的位置,提供智能送冷,并且会结合传感器判断屋内温度和湿度,提供更精准的环境方案。
同样是在家电上,今年电视背后的AI平台战打得风生水起,把机器视觉技术引入电视成为了新的趋势。通过机器视觉来让电视观察屋内照明情况、用户与电视的距离,电视可以主动调节屏幕光线强度,输出比较护眼的模式。还有的AI应用是让电视在观察到儿童看电视后主动开启童锁。
在日常生活之外,多模态交互设备也在应用于工业设备中。比如通过给机器设备搭载机器视觉+传感器提供安全警告,以及利用机器视觉+故障信号的方式判断设备问题等。
把不同信号模态整合在一起,实现设备的多维感知,今天正在以比较快的速度来到应用市场。
高精度判断用户命令,输出主动服务;提供实时化、弹性化的体验,可以说是AI带来的多模态交互技术放进物联网世界中的一张鬼牌。
当然了,还是有几道难关…
按照惯例,最后我们还是要正视任何技术都存在不足。刚刚有一点萌芽的多模态交互+物联网当然也不例外。
最核心的一个问题,是我们到底靠什么实现多模态协同?
目前来看,无论是家电还是工业设备,实现多模态混合的主要方式还是把不同的传感源输入到设备处理中心,启动一定程序来开启相应服务。
换句话说,AI模型本身是没法理解多模态信号的,只是不同的算法启动不同的开关而已。这种“伪AI多模态”的设备也不是不行,只是在实时化和复杂的推理判断上会有心无力。
解决方案可能是一种叫做“多模态深度学习”的技术,让AI智能体本身能够理解多模态信号,从算法本身就容纳听觉、视觉、传感信号进行统一思考。这样可以保证设备高度实时化,并且可以让设备进行多模态协同学习,真正地“聪明”起来。
这要求在算法上对多维度数据的各自表示、融合、对齐有新的突破,今天我们还只能等待学术界的好消息。
另外一个问题,是今天的多模态交互缺少有效的开发平台,开发者和企业很难复制这一模式,来进行独立的物联网解决方案开发。当然,目前来看这应该仅仅是个时间问题。
与之相对应的,是在缺乏行业标准、开发基础的前提下,今天开发一个多模态物联网项目需要大量的人才成本和综合开发成本。并且缺少芯片、专用传感器等后端硬件的支撑。这个领域国内有一些芯片和算法公司,但似乎大部分处在做PPT的画饼阶段。
综合来看,AI带来的多模态想象力,大概确实可以完成一些物联网很早就希望实现的东西。但方兴未艾的产业局势,还需要巨头搭建平台、优质案例出现、开发者路径明确等几个环节才能开启下一轮风口。
但无论如何,耳聪目明的机器,已经在跑步过来的路上了……
享控智能科技有限公司
公司成立于2013年,专注于物联网技术与人工智能技术挖掘整合,让企业运营更容易。目前公司主要产品与解决方案有:电子人物联网--企业物联网云服务一体化解决方案(基于物联网的云企业中心+电子人智能工作APP)、享控云网--聚焦工业服务的工业互联网平台(包括工业服务市场,工业物联网、工业维保通)。
责任编辑:
声明:本文由入驻搜狐号的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
电子人物联网
电子人生活物联网
今日搜狐热点多模态无监督图像转换|机器视觉工程应用的开发思路|机器视觉多模态无监督图像转换|机器视觉工程应用的开发思路|机器视觉聊科技百家号更多AI资讯,关注:九三智能控前沿引领---多模态无监督图像转换获取PDF全文、代码和预训练模型,请留言与我们联系论文Multimodal Unsupervised Image-to-Image Translation中,奈尔大学的Xun Huang、Serge Belongie联合英伟达的Ming-Yu Liu与Jan Kautz提出了一种多模态无监督的图像到图像转换问题的标准框架。研究人员首先假设图像的潜在空间能够分解为内容空间和样式空间,之后再进一步假设,不同领域的图像内容空间相同,但样式空间不同。为了将一张图像转换为指定领域的图像,研究人员在目标样式空间中将图像的内容代码和随机的样式代码重新组合。这样,内容代码编码的信息在转换过程中将被保留,而样式代码代表了与输入图像无关的剩余的变体。通过抽取不同风格的代码,这个模型可以输出风格多样且多模态的图像。实验表明,这个模型在建立多模态输出分布时非常高效,并且和目前最先进的方法相比图像质量更高。这并不是英伟达在图像转换领域的首次探索,这篇论文是在去年英伟达的NIPS论文Unsupervised Image-to-Image Translation Networks中提出的模型基础上改进的。案例一:街道场景转换案例二:季节画面转换机器视觉工程应用的基本开发思路是:一、图像采集二、图像分割三、形态学处理四、特征提取五、输出结果下面以Halcon产品为例,对这四个步骤进行讲解。一、图像采集Halcon通过imageacquisition interfaces对各种图像采集卡及各种工业相机进行支持。其中包括:模拟视频信号,数字视频信号Camera Link,数字视频信号IEEE 1394,数字视频信号USB2.0,数字视频信号Gigabit Ethernet等。Halcon通过统一的接口封装上述不同相机的image acquisition interfaces,从而达到算子统一化。不同的相机只需更改几个参数就可变更使用。Halcon图像获取的思路:1、打开设备,获得该设备的句柄。2、调用采集算子,获取图像。1、打开设备,获得该设备的句柄。open_framegrabber('DahengCAM', 1, 1, 0, 0, 0, 0, 'interlaced', 8, 'gray', -1, 'false','HV-13xx', '1', 1, -1, AcqHandle) //连接相机,并设置相关参数ParameterValuesDefaultTypeDescriptionName'DahengCAM'stringName of the HALCON interface.HorizontalResolution111表示水平全部,2为水平1/2,表示图像截取。VerticalResolution11同上,表示垂直方向。ImageWidth0integer所需的图像部分的宽度('0 '代表了完整的图像)。ImageHeight0integer所需的图像部分的高度(0”是完整的图像)StartRow0integer所需的图像部分左上方的像素行坐标StartColumn0integer所需的图像部分左上方的像素列坐标Field忽视BitsPerChannel忽视ColorSpace'default', 'gray', 'rgb''gray'stringHALCON图像的通道模式Generic忽视ExternalTrigger'false', 'true''false'string外部触发状态CameraType'HV-13xx', 'HV-20xx', 'HV-30xx', 'HV-31xx','HV-50xx', 'SV-xxxx''HV-13xx'string所连接的摄像机系列型。Device'1', '2', '3', ...'1'string相机连接第一个设备号“1”,第二个设备编号“2”。Port忽视LineIn忽视2、调用采集算子,获取图像grab_image (Image, AcqHandle) //(同步采集)完后处理图像,然后再采集图像。采集图像的速率受处理速度影响。grab_image_async (Image, AcqHandle,MaxDelay) //(异步采集),一幅画面采集完后相机马上采集下一幅画面,不受处理速度影响。其中第三个参数为:MaxDelay,表示异步采集时可以允许的最大延时,本次采集命令距上次采集命令的时间不能超出MaxDelay,超出即重新采集。图像采集其他相关算子:grab_image_start,该算子开始命令相机进行异步采集。只能与grab_image_async(异步采集)一起使用。例子* Select a suitable image acquisition interface nameAcqNameopen_framegrabber(AcqName,1,1,0,0,0,0,'default',-1,'default',-1.0,'default','default','default',-1,-1,AcqHandle)grab_image(Image1,AcqHandle)//进行同步采集* Start next grabgrab_image_start(AcqHandle,-1.0)//命令相机进行异步图像采集开始* Process Image1 ...* Finish asynchronous grab + start next grabgrab_image_async(Image2,AcqHandle,-1.0)//读取异步采集的图像* Process Image2 ...close_framegrabber(AcqHandle)3、相机参数读写读取相机参数:info_framegrabber( : : Name, Query : Information, ValueList)写相机参数:set_framegrabber_param( : : AcqHandle, Param, Value : )二、图像分割图像分割的定义: 所谓图像分割是指将图像中具有特殊含义的不同区域分割开来,这些区域是互相不交叉的,每个区域都满足特定区域的一致性。1、基于阈值的图像分割threshold —采用全局阈值分割图像。格式: threshold(Image : Region : MinGray, MaxGray : )自动全局阈值分割的方法:(1)计算灰度直方图(2)寻找出现频率最多的灰度值(最大值)(3)在threshold中使用与最大值有一定距离的值作为阈值代码:gray_histo(Regions, Image,AbsoluteHisto, RelativeHisto) //计算出图像区域内的绝对和相对灰度值直方图。PeakGray := sort_index(AbsoluteHisto)[255] //求出出现频率最多的灰度值threshold(Image,Region,0,PeakGray-25)bin_threshold — 使用一个自动确定的阈值分割图像。格式: bin_threshold(Image : Region : : )dyn_threshold —使用一个局部阈值分割图像。格式: dyn_threshold(OrigImage, ThresholdImage : RegionDynThresh : Offset, LightDark : )例子mean_image(Image,Mean,21,21)dyn_threshold(Image,Mean, RegionDynThresh,15,'dark')var_threshold —阈值图像局部均值和标准差的分析。格式: var_threshold(Image : Region : MaskWidth, MaskHeight, StdDevScale, AbsThreshold, LightDark : )2、基于边缘的图像分割:寻找区域之间的边界watersheds —从图像中提取分水岭和盆地。格式: watersheds(Image : Basins, Watersheds : : )watersheds_threshold —使用阈值从图像中提取分水岭和盆地。格式: watersheds_threshold(Image : Basins : Threshold : )3、基于区域的图像分割:直接创建区域三、形态学处理形态学处理以集合运算为基础。腐蚀、膨胀、开操作、闭操作是所有形态学图像处理的基础。开操作(先腐蚀再膨胀)使对象的轮廓变得光滑,断开狭窄的间断和消除细的突出物。闭操作(先膨胀再腐蚀)消弥狭窄的间断和长细的鸿沟,消除小的孔洞,填补轮廓线的断裂。形体学基础算子:erosion1dilation1openingclosing常用的形态学相关算子connectionselect_shapeopening_circleclosing_circleopening_rectangle1closing_rectangle1complementdifferenceintersectionunion1shaps_transfill_up形态学高级算子:boundaryskeleton四、特征提取1、区域特征:areamomentssmallest_rectangle1smallest_circleconvexity:区域面积与凸包面积的比例contlength:区域边界的长度compactness2、灰度特征estimate_noiseselect_gray五、输出结果(1)获取满足条件的区域(2)区域分类,比如OCR(3)测量(4)质量检测本文仅代表作者观点,不代表百度立场。系作者授权百家号发表,未经许可不得转载。聊科技百家号最近更新:简介:聊聊最新的科技,看看未来趋势作者最新文章相关文章拒绝访问 | x.itunes123.com | 百度云加速
请打开cookies.
此网站 (x.itunes123.com) 的管理员禁止了您的访问。原因是您的访问包含了非浏览器特征(40f36ef9c3b143f5-ua98).
重新安装浏览器,或使用别的浏览器拒绝访问 | mini.itunes123.com | 百度云加速
请打开cookies.
此网站 (mini.itunes123.com) 的管理员禁止了您的访问。原因是您的访问包含了非浏览器特征(40f36efb-ua98).
重新安装浏览器,或使用别的浏览器

我要回帖

更多关于 物联网和机器学习 的文章

 

随机推荐