首页
报道
论点
进程
机器
学术
关于
建议
投稿
Google人工智能技术新突破:可初步识别视频中的人在做什么运动
72
作者
张宇豪
在
2015年4月14日
专题
论点
分类
AI
CNNs
facebook
google
Google卷积神经网络
Optical Flow
世界
人工智能
信息
兴趣
卷积神经网络
图像
技术
挑战
数据
新突破
时间
智能
研究
神经网络
维度
计算量
语音
人工智能要想理解真实世界发生的事,可以先从读取视频中的信息开始。Google、Facebook等大公司都在进行图像和语音的分析研究。Google卷积神经网络(Convolutional Neural Networks,CNNs)技术的两位软件工程师在
博客上
公布了一些研究成果,其中很重要的一个突破是,能够初步辨识出动态视频的内容。
他们认为,由于动态视频增加了时间这个维度,运动轨迹等信息丰富,这方面视频反而比图片更易识别和分类。但是,对视频而言,不仅要分辨出图像中的物体或人,还要搞清楚他们在干什么。如果想要完整地分析一整段视频(如一场足球赛),从建模角度来说是个挑战,因为其中很多参数需要调试,计算量大。为了解决这些问题,他们会先提取图像中的大致框架,如下图所示,处理这种相对简单的数据可以降低计算的复杂性。为了防止误差过大,他们以
光流法(Optical Flow)
的形式观察,也就是相对于观察者的运动所造成的观测目标、表面或边缘的运动来判断,如下图所示。
判断效果可以看看下面这段
视频
,虽然还比较原始,但是左上角的几行信息就是AI判断出的不同运动的概率,随着视频的推进,分析的概率也在变化。所以视频末尾指出,每一帧出现的概率并不那么准确,应以视频结束后系统的判断为准。这项研究学术论文已发表,感兴趣的话,可以移步
这里
。
张宇豪
相关内容
2016年6月12日
谷歌研究阻止“人工智能毁灭人类”的核心 都在这篇论文里面了
阅读更多
2016年6月3日
怎么能让中国的AI发展得更好
阅读更多
2016年6月2日
你离能够拥有一个“强AI”女友还有多久?让专家告诉你
阅读更多
评论已被关闭。