加入收藏在线咨询联系我们
位置:首页 > 最新代码贴

MSRA视频理解新突破,实现199层三维卷积神经网络

作者:时间:2017-11-18 19:44:44浏览:

 随着互联网的不断发展,可处理视频的深度神经网络远比普通神经网络更难训练,如何减轻训练负担成为了一项不可忽视的工作。来自微软亚洲研究院多媒体搜索与挖掘组的研究成果「Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks」,在正在举办的 International Conference on Computer Vision(ICCV)2017 会议上发布,它专注于如何利用大量视频数据来训练视频专用的深度三维卷积神经网络,提出一种基于伪三维卷积(Pseudo-3D Convolution)的深度神经网络的设计思路,并实现了迄今为止最深的 199 层三维卷积神经网络。通过该网络学习到的视频表达,在多个不同的视频理解任务上取得了稳定的性能提升。

 
1993 年 9 月,一款名为 NCSA Mosaic 的浏览器正式支持在网页内嵌入图片,这标志着互联网从纯文本时代迈入了「无图无真相」的多媒体时代。如今,随着互联网带宽的提升和高速移动设备的普及,信息的获取途径和传播途径也在与日增加,视频逐渐成为互联网多媒体消费的重要组成部分。
 
 
 
从传统的视频分享网站到电视电影节目的网络化,再到现在新兴的视频直播网站和小视频分享网站,互联网视频已经进入了爆炸式发展的新阶段。据统计,仅仅以视频分享网站 YouTube 为例,平均每分钟就有约 300 小时的视频上传到 YouTube 上,每天的视频观看次数更是高达 50 亿次。数量如此巨大的视频内容与观看次数对视频处理、分类、推荐等常见视频相关技术提出了更高的要求,也提供了更广阔的应用场景。
 
在视频处理相关技术中,视频特征描述学习(Representation Learning)是一个最基本的问题。学习视频的特征表达是几乎所有视频处理和分析的基础,其中包括视频标注、动作识别、视频监控、视频检索、视频场景识别、视频分割、视频自然语言描述和基于视频的人机交互等等。
 
然而目前视频识别的相关研究多数使用的是基于图像的卷积神经网络(如微软研究院在 2015 提出的残差神经网络 ResNet)来学习视频特征,这种方法仅仅是对单帧图像的 CNN 特征进行融合,因此往往忽略了相邻的连续视频帧间的联系以及视频中的动作信息。目前,视频专用的深度神经网络还很缺乏。
 
在 International Conference on Computer Vision(ICCV)2017 会议上,微软亚洲研究院发布了多媒体搜索与挖掘组最新的研究成果——Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks[1]。这项工作主要集中在如何利用大量视频数据来训练视频专用的深度三维卷积神经网络,它提出了一种基于伪三维卷积(Pseudo-3D Convolution)的深度神经网络的设计思路,并实现了迄今为止最深的 199 层三维卷积神经网络。通过该网络学习到的视频表达,在多个不同的视频理解任务上取得了稳定的性能提升。

 

公司地址:江苏 苏州 相城区
联系人:朱小姐
联系电话:13915413186
电邮:chengyixieyuan@qq.com
QQ:1537444389 点击这里给澄意蟹园发消息