Google人工智能技术新突破：可初步识别视频中的人在做什么运动

作者张宇豪在 2015年4月14日

专题

论点

人工智能要想理解真实世界发生的事，可以先从读取视频中的信息开始。Google、Facebook等大公司都在进行图像和语音的分析研究。Google卷积神经网络（Convolutional Neural Networks，CNNs）技术的两位软件工程师在博客上公布了一些研究成果，其中很重要的一个突破是，能够初步辨识出动态视频的内容。

他们认为，由于动态视频增加了时间这个维度，运动轨迹等信息丰富，这方面视频反而比图片更易识别和分类。但是，对视频而言，不仅要分辨出图像中的物体或人，还要搞清楚他们在干什么。如果想要完整地分析一整段视频（如一场足球赛），从建模角度来说是个挑战，因为其中很多参数需要调试，计算量大。为了解决这些问题，他们会先提取图像中的大致框架，如下图所示，处理这种相对简单的数据可以降低计算的复杂性。为了防止误差过大，他们以光流法（Optical Flow）的形式观察，也就是相对于观察者的运动所造成的观测目标、表面或边缘的运动来判断，如下图所示。 Image title

判断效果可以看看下面这段视频，虽然还比较原始，但是左上角的几行信息就是AI判断出的不同运动的概率，随着视频的推进，分析的概率也在变化。所以视频末尾指出，每一帧出现的概率并不那么准确，应以视频结束后系统的判断为准。这项研究学术论文已发表，感兴趣的话，可以移步这里。

张宇豪

发表回复取消回复

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据。

Google人工智能技术新突破：可初步识别视频中的人在做什么运动

张宇豪

相关内容

Uncomplicated Advice for Utilizing Dating Web Sites

Get love on the net with RomanceCompass dating sites service

Straightforward Approaches for Making Use of Dating Web Pages

发表回复 取消回复

发表回复取消回复