ope体育app下载手机版_ope电竞竞猜_ope电竞app
ope体育app下载手机版

体积公式,谷歌新研讨对神经网络数据并行性提出质疑,小品大全

admin admin ⋅ 2019-03-30 13:15:26
在练习神经网络时,并行核算和模型并行是很常用的办法,以最大极限地运用有限的算力。可是,谷歌的一项新研讨标明,数据并行并不必定总能加快模型练习速度。这是为什么呢?
谷歌新研讨对神经网络数据并行性提出质疑

曩昔十年多中,神经网络已经在各种猜测使命中完成了最先进的效果,包含图画分类、机器翻译和语音辨认等。这些效果的获得至少部分应该归功于软硬件的改进加快了神经网络练习。更快的风流妹逗老司机练习速度直接使得模型质量显着进步,能够处理更多的练习数据,也让研讨人员能够更快地测验新的主意和装备。今日,像云 TPU Pod 这样体积公式,谷歌新研讨对神经网络数据并行性提出质疑,小品大全的硬件开发商都在泰安东平气候敏捷进步神经网络练习的核算力,这既进步了运用额定核算的或许性,使神经网络练习速度更快,还促进模型质量得到更大改进。可是,咱们终究应该怎么运用这空前强壮的核算力,更大的算力是否必定意味体积公式,谷歌新研讨对神经网络数据并行性提出质疑,小品大全着练习速度更快呢?

运用巨大算力最常用办法,是把算力分配到多个处理器上并一起雌豚履行计算。在练习神经网络时,完成这一方针的首要办法是模型并行,在不同处理器上散布神经网络;数据并行是指在不同处理体积公式,谷歌新研讨对神经网络数据并行性提出质疑,小品大全上分发练习样例,而且并行地核算神经网络的更新。虽然模型并行使得练习孙一明大于单个处理器可支撑的神经网络成为或许,但一般需求依据硬件需求定制模型架构。相比之下,数据并行是模型不可知的,且季昊霆适用于一切神经网络体系结构,它是用于并行神经网络练习的最简略、最广为选用的技能。关于最常见的神经网络练习算法(同步随机梯度下降及其变体),数据并行的规划和样本巨细、用于核算神经网络的每次更新的练习样本的数量相对应。可是,并行核算有什么约束?咱们什么时候才干完成大幅度的练习加快?

在《丈量数据并行在神经网络练习中的艾唯莎效果》一文中,咱们在试验中运用三种不同的优化算法(“优化器”)在七个不同数据集上运转六种不同类型的神经网络,来研讨样本巨细和练习时刻之间的联系。总的来说,咱们在约 450 个作业负载上练习了超越 100K 的体积公式,谷歌新研讨对神经网络数据并行性提出质疑,小品大全单个模型,发现了咱们测验的一切作业负载中样本巨细和练习时刻之间看似遍及的联系。咱们还研讨了这种联系怎么随数据集、神经网络架构和优化器而改变,效果咱们发现,作业负载之间的差异非常大。此外,咱们很开心肠把原始数据共享出来,供研讨界进一步剖析。这些数据包含超越 禁片排行7体积公式,谷歌新研讨对神经网络数据并行性提出质疑,小品大全1M 的模型评价,组成咱们练习的一切 100K + 单个模型的练习曲线,并可用于复现咱们论文中说到的一切 24 个图。


样本巨细与练习时刻之间的遍及联系

在抱负的数据并行体系中,处理器之间的时刻同步能够忽略不计,练习时刻能够经过练习过程来计量(神经网络参数的更新)。在此假设下,咱们在样本巨细和练习时刻之间的联系中观察到三种不同的杨吉被杀本相缩放形式:“完美缩放”形式,其间样本加倍,到达方针样本外过错所需的练习过程数折半;其次是“收益递减体积公式,谷歌新研讨对神经网络数据并行性提出质疑,小品大全”形式;最终是“最大数据并行”准则,即便在抱负的硬件环境中,进一步添加样本也不会削减练习时刻。

谷歌新研讨对神经网络数据并行性提出质疑

(关于咱们测验的一切作业负载,咱们观察到样本巨细和练习速度之间的遍及联系具有三种不同的形式:完美缩放(沿着虚线),收益递减(从虚线违背)和最大数据并行(趋近平行)。各形式之间的过渡点在不同的作业量上改变很大。)

虽然样本巨细和练习时刻之间的这些基本联系看似遍及,但咱们发现,在不同神经网络架构和数据集上,三种缩放形式之间的转换点改变很大。这意味着,在当今的硬件条件下(如云 TPU Pod,),虽然简略的数据并行能够大大加快某些作业负载,可是另一些作业负载需求的不仅仅是简略的数据并行。例如,在上图中,CIFAR-10常永芬 上的 ResNet-8 无法从大于 1,024 的样本中获益,而 体积公式,谷歌新研讨对神经网络数据并行性提出质疑,小品大全ImageNet 上的 ResNet-50 只有当样本至少添加到 65,536 才或许持续获益。


优化作业负载

假如能够猜测哪些作业负载能够最大化地从数据并行练习中获益,那么咱们就能够定制作业负载,以最大极限地运用可用硬件。可是,咱们的效果标明这不必定行的通,因为最大化运用有用的样本在某种程度上取决于作业负载的方方面面:神经网络架构、数据集和优化器。例如,某些神经网络架构能够从比其他架构更大的样本中获益,即便在运用相同优化器对相同数据集进行练习时也是如此。虽然这种影响有时取决于网络的宽度和深度,但它在不同类型的网络之间是不一致的,而且一些网逝世紫灵天使络乃至没有显着的“宽度”和“深度”概念。

虽然咱们发现周涛的女儿某些数据集能够从比其他数据集更大的样本中获益,但这些差异并不总是因为数据集的巨细引起的,有时关于较大的样本,较小的数据集也或许比较大的数据集获益更多。

谷歌新研讨对神经网络数据并行性提出质疑

(左图: 在 LM1B 数据集上,transformer 神经网络比 LSTM 神经网络扩展到更大样本的样本。右图:Common S怀挺是什么意思crawl 数据集并不比 LM1B 数据集获益更多,虽然前者大摩蒂蔻小是后者的 1,000 倍。)

或许最让人鼓动的发现是,即便是优化算法的细小改变,如随机梯度下降的 momentum容湛慕绾绾 ,也能够跟着样本扩展显着改进练习。这让新优继父韩漫化器或测验双花双叶又双枝优化器狱门兽缩放特点的或许性变大,以找到能够最大极限地运用大规划数据并行的优化器。


未来的作业

经过添加样本数量,运用额定的数据并行是一种加快作业负载的简略办法,但搏斗海豚是,咱们的试验显现作业负载加快的优势因为硬件约束在逐步减小。但另一方面,咱们的效果标明,一些优化算法或许能够在许多模型和数据会集扩展完美的缩放形式。未来,咱们能够用相同的办法测验其他优化器,看看现在是否存在能够将完美形式拓宽应用到一切问题中的优化器。

原文:https://ai.googleblog.com/2019/03/measuring-limits-of-data-parallel.htm哪个vpn好用

相关新闻

admin

admin

TA太懒了...暂时没有任何简介

精彩新闻