当前位置: 首页 >> 推荐新闻 >> 湖心亭看雪,谷歌大脑提出根据流的视频猜测模型,可发生高质量随机猜测成果,经典脑筋急转弯 >> 正文

湖心亭看雪,谷歌大脑提出根据流的视频猜测模型,可发生高质量随机猜测成果,经典脑筋急转弯

2019年03月28日 11:36:01     作者:admin     分类:推荐新闻     阅读次数:227    

选自arXiv

作者:Manoj Kumar等

机器之心编译

参加:杜伟、路

近来,来自谷歌大脑和伊利诺伊大学香槟分校的研讨者在 arXiv 上宣布论文,提出了一种依据流的视频猜想模型 VideoFlow,可以直接优化数据似然,还可以发作高质量的随机猜想。

核算机硬件才能的飞速发展以及研讨者在更深入见地和更好办法方面所做出的不懈努力,推进机器学习范畴从相对冷门上升至干流。该范畴的发展现已转化为各类才能的前进,如图画分类(Krizhevsky等人,2012年)、机器翻译(Vaswani等人,2017年)以及超人游戏智能体(Mnih等人,2013年;Silver等人儿子爱上妈妈,2017年)等。可是,机器学习技能的运用在很大程度上受限于需求许多监督的状况(如图画分类或机器翻译使命),或许学习智能体需求对环境的高度准确模仿(如游戏智能体)。监督学习的一种不错的代替办法是:运用大型无标示数据集,并结合猜想生齐思乔成模型。杂乱的生成模型若想有用地猜想未来事情,则有必要建构国际的内部表征。例如,一个可以猜想未来视频帧的猜想生成模型需求建模实际国际中的杂乱现象,如物理交互。这为构建充沛了解实际国际的模型供给了一种不错的机制,且无需任何访客机一体机标示样本。关于实际国际互动的视频十分丰富且简单取得,大型生成模型可以在包括许多视频序列的大型无标示数据集上练习,以了解实际国际中各式各样的现象。此类模型对后续下流使命中的表征学习十分有用(Mathieu等人,2016年),乃至可直接用在猜想未来的运用中进行有用的决议计划和操控,如机器人学(Finn等人,2016年)。视频猜想所面对的一个中心应战是,未来具有高度不确定性:对当时时段的短序列调查可表明未来的许多或许。近期现已有许多研讨触及可表征不确定未来的概率模型,但这些模型要么核算成本极端贵重(如像素级自回归模型),要么无法直接优化数据似然。

这篇论文研讨随机猜想问题,首要重视条件式视频猜想:依据较短序列的以往调查作用组成原始RGB视频帧(Ranzato等人,2014年;Srivastava等人,2015年;Vondrick等人,2015年;Xingjian等人,2015年;Boots等人,201名居扬家居商城4年)。详细而言,研讨者提出了一种新式视频猜想模型,它可以供给切当似然,生成各类随机未来,还能准确组成传神、高质量的刘新扬视频帧。该办法背面的首要思路是:将依据流的生成模型(Dinh等人,2014和2016年)扩展到条件式视频猜想环境中。依据变分自编码器和像素级自回归模型的办法已被用于研讨随机猜想生成,但依据流的模型遭到的重视相对较少。据称,依据流的模型现在仅用于图画等非时态数据和音频序列的生成。条件式视频生成面对着独有的应战:视频序列的高维度特性使其难以建模为独自的数据点。因而,谷歌大脑的研讨者学习了一种潜在动态体系(latent dynamical system)模型,用于猜想流模型潜在状态的未来值。这为该体系的潜在状态引入了马尔科夫动力学,代替了规范的无条件先验散布。遭到图画生成模冲气娃型 Glow 的启示,研讨者创建了一种依据流的视频猜想有用模型架构 VideoFlow。

实证作用表明,在 action-free BAIR 数据集上履行随机视频猜想时,VideoFlow所取得的作用与当时最优作用平起平坐,其定量作用也可以与最佳的VAE模型相媲美。VideoFlow还可以输出不错的定性作用,避免了许多运用像素级均方误山东的响马完好顺口溜差练习的模型输出作用中常见的伪影(如含糊猜想),并且也不会面对与练习对立模型相关的应战。与依据像素级自回归猜想的模型比较,VideoFlow在测验阶段的图画组成速度有很大提高,这使得VideoFlow关于机器人操控等需求实时猜想的运用愈加有用。终究,VideoFlow可以直接优化练习视频的似然,且不依靠变分下界,因湖心亭看雪,谷歌大脑提出依据流的视频猜想模型,可发作高质量随机猜想作用,经典脑筋急转弯而咱们可以从似然值的视点直接评价其功能。

论文:VideoFlow: A Flow-Based Generative Model for Video

论文链接:https://arxiv.org/pdf/1903.01434.pdf

摘要:原则上,可以建模和猜想未来事情序列的生成模型可以学习捕获实际国际中的杂乱现象,如物理交互。尤其是,学习视频猜想模型可以供给一个特别不错的机制,以充沛了解物质国际:实际交互的视频十分丰富且简单取得。可以猜想未来视频帧的模型不只可以捕获国际的有用表征,还可以独立处理依据模型的机器人操控等问题。可是,视频猜想所面对的的中心应战是,未来具有高度不确定性:之前调查事情序列可表明未来的许多或许。近期现已有许多研讨触及可表征不确定未来的概率模型,但这些模型要么核算成本极无修韩漫其田开斌昂扬(如像素级自回归模型),要么无法直接优化数据似然(data likelihood)。谷歌大脑的这项新研讨提出依据归一化流的视频猜想模型,该模型不只可以直接优化数据似然,并且可以发作滴滴赵培辰高质量的随机湖心亭看雪,谷歌大脑提出依据流的视频猜想模型,可发作高质量随机猜想作用,经典脑筋急转弯猜想。据称,该研讨初次提出了依据归一化流的多帧视频预和蔼园包子测。研讨者介绍了一种建模潜在空间动态的办法,并展现该依据流的生成模型为视频生成建模供给了一种可行且有竞争力的办法。

提出的架构

该研讨提出视频生成流,扩展了近期提出的 Glow(Kingma & Dhariwal,2018年)和RealNVP(Dinh等人,2016年)架构。

图 1:流模型经过多个层次的随机变量选用多规范架构。在不同的层次上,输入流经K个流并输出随机变量,然后进入下一组流。终究一组流的输出为终究的随机变量。

图2: 每一个时刻步 x_t 的输入被编码成多层次的随机变量

。研讨者经过序列进程对这些随机变量建模

定量试验

研讨者在Stochastic Movement Dataset (Babaeizadeh et al., 2017) 和 BAIR robot pushing dataset (Ebert et al湖心亭看雪,谷歌大脑提出依据流的视频猜想模型,可发作高质量随机猜想作用,经典脑筋急转弯., 2017) 上评价了VideoFlow的功能,还对模型中的要害组件进行了模型简化测验,以量化这些组件的作用。终究,研讨者对VideoFlow与当时最优的随机视频生成基线模型进行定量比照。VideoFlow模型的超参数见该论文弥补资料。

表 1:研讨者报告了吴秩多在10个方针帧和3个条件帧(conditioning frame)上的均匀每像素比特数(bits-per-pixel,BPP),所用数据集为BAIR action-free dataset。

图 4:B:基线模型,A:时刻越过衔接(Temporal Skip Connection),C:扩张卷积+GATU,D:扩张卷积+时刻湖心亭看雪,谷歌大脑提出依据流的视频猜想模型,可发作高质量随机猜想作用,经典脑筋急转弯越过衔接,E:扩张卷积+时刻越过衔接+GATU。研讨者为VideoFl魔皇毒宠异世妖娆妃ow模型的不同简化模型测验制作了在BAIR action-free 数据彭瓦集上的holdout BPP。

图 5:关于BAIR action-free数据会集给定的一组条件帧,研讨者为每一个随机视频生成模型抽取100个视频样本。研讨者依据yatoo鸭途官网PSNR、SSIM和VGG感知衡量挑选最接近真值的视频。一切模型运用10个方针帧进行练习,但测验时需生成27帧。

图6:关于一段给定的测验视频,研讨人员使用VideoFlow模型检测时刻反常,然后核算第t个方针帧X_t归于P(X_4 = X_t|X<4) (t = 4 . . . 13) 的湖心亭看雪,谷歌大脑提出依据流的视频猜想模型,可发作高质量随机猜想作用,经典脑筋急转弯似然。研讨者在测验集上对相应的BPP取均匀,并制作差错线。

定性试验

研讨者依据两个数据集潜在空间中的输入帧和插值生成视频,并展现了定性作用。定性作用可在https://sites.google.com/corp/ view/videoflow/home 中检查。在生成视频中,蓝色边框表明条件帧,赤色边框表明生成帧。

温度的影响

图 7:研讨者别离在温度0.1、0.5和湖心亭看雪,谷歌大脑提出依据流的视频猜想模型,可发作高质量随机猜想作用,经典脑筋急转弯1.0的状况下生成视频。上图展现了,在每一种温度下未来不同时刻步中的生成帧。

更长时间的猜想

图 8:研讨者在温度0.5的状况下生成了未来100帧。上下两行别离对应无遮挡和有遮挡状况下的生成视频。

图 9:研讨者对练习进程和生成视频的质量进行了比照。(视频质量以测验集上的均匀BPP值为衡量规范)

潜在空间插值

图 10:研讨者展现了 a)小蓝矩形和大黄矩形;b)小蓝圆圈和大黄圆圈之间的插值。

图 11:研讨者展现了BAIR robot pushing dataset中两个测验视频的首个输入帧和终究方针帧之间的插值。

复湖心亭看雪,谷歌大脑提出依据流的视频猜想模型,可发作高质量随机猜想作用,经典脑筋急转弯现代码

复实际验作用可用代码可在揭露的 Tensor2Tensor repo中获取:https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tense乐博or/models/video/next_frame_glow.py。

本文为机器之心编译,转载请联poler哥系本大众号取得授权。

视频 大脑 技能
问琴完好版 声明:该文观念仅代一夜七次表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。
除非特别注明,本文『湖心亭看雪,谷歌大脑提出根据流的视频猜测模型,可发生高质量随机猜测成果,经典脑筋急转弯』来源于互联网、微信平台、QQ空间以及其它朋友推荐等,非本站作者原创。 本站作者admin不对本文拥有版权,如有侵犯,请投诉。我们会在72小时内删除。 但烦请转载时请标明出处:“本文转载于『第五大道-权威华文媒体-有趣有料伴你行』,原文地址:http://www.thth5.com/articles/1351.html