头条

@全体毕业生，这4万份打包胶带为你送上毕业祝福！

蔓蔓日茂，蝉鸣渐起，夏日正当时。拨穗礼成，当毕业典礼徐徐落幕，也宣告着大学四年的故事将要落下帷幕...

营销与经营深度一体，巨量引擎助力品牌撬动全渠道增长
过去十年，中国企业在数字营销上的投入快速增长。根据eMarketer的数据，2023年国内数字广告的投入将达到1361亿美元，增长14.8%。数字营销已经成为品牌方最大的经营成本之一。面对如此巨大的投入，品牌方的管理层...

证券

美国垃圾债券创20年最大涨幅 2020

4月10日讯，美国垃圾债券创20年最大涨幅，此前美联储宣布购买此类债券。

发改委同意寿光市惠农新农村建设投资开发有限公司...
发改委官网消息，同意寿光市惠农新农村建设投资开发有限公司发行绿色债券不超过6亿元，所筹资金全部用于寿光市西部农村产业融合项目建设。 12302

银行

五年发展规划开局良好，江苏银行2019年净利润稳步增长

2019年是江苏银行新一轮五年发展战略规划起步实施之年，江苏银行坚决贯彻落实中央大政方针和江苏省委、...

兴业银行落地挂钩LPR浮息债配套人民币代客利率互换...
近日，由兴业银行独立主承销的挂钩LPR(贷款市场报价利率)的浮息债配套人民币代客利率互换业务顺利落地。本笔债券发行人为广西柳州市东城投资开发集团，发行金额5亿元，期限270天，采取双品种双向回拨机制，其中品...

IBM声称其神经计算机达到创纪录的AI模型训练时间

发布时间：2020/05/19 科技 浏览：296

在今年早些时候悄悄发布的技术论文中，IBM详细介绍了所谓的IBMNeuralComputer，这是一种可重新配置的并行处理系统，旨在研究和开发新兴的AI算法和计算神经科学。本周，该公司发布了预印本，描述了在神经计算机上演示的第一个应用程序：一种深度的“神经进化”系统，该系统将Atari2600的硬件实现，图像预处理和AI算法结合在优化的流水线中。合著者报告的结果与最先进的技术相比具有竞争力，但也许更重要的是，他们声称该系统实现了创纪录的每秒120万图像帧的训练时间。

神经计算机代表了AI计算军备竞赛中弓箭的一击。根据OpenAI最近发布的一项分析，从2012年到2018年，最大规模的AI训练运行中使用的计算量增长了300,000倍，而3.5个月的时间却翻了一番，远远超过了摩尔定律的步伐。与此相适应，诸如英特尔即将在能源部的阿贡国家实验室的Aurora和AMD在橡树岭国家实验室的Frontier等超级计算机的计算性能超过了exaflop（每秒五百亿浮点计算）。

电子游戏是AI和机器学习研究的完善平台。他们之所以获得成功，不仅是因为它们的可用性和大规模运行它们的低成本，而且还因为在诸如强化学习之类的特定领域中，人工智能通过与环境互动以获取奖励来学习最佳行为，因此，游戏分数可以直接奖励。游戏中开发的AI算法已显示出可适应更实际的用途，例如蛋白质折叠预测。而且，如果证明来自IBM神经计算机的结果是可重复的，则该系统可以用于加速这些AI算法的开发。

神经计算机

IBM的神经计算机包括432个节点（16个模块化卡中的27个节点），这些节点基于Xilinx的现场可编程门阵列（FPGA），IBMXilinx是IBM的长期战略合作者。（FPGA是设计为在制造后进行配置的集成电路。）每个节点都包含一个XilinxZynq片上系统（一个双核ARMA9处理器与一个FPGA在同一芯片上配对）以及1GB专用RAM。节点以3D网格拓扑结构排列，并与称为穿硅通孔的电气连接垂直互连，这些通孔完全穿过硅晶圆或芯片。

在联网方面，FPGA提供对卡之间物理通信链接的访问，以便建立多个不同的通信通道。理论上，单个卡可以支持高达每秒432GB的传输速度，但是可以调整和逐步优化神经计算机的网络接口，使其最适合给定的应用程序。

“详细说明了神经计算机架构的论文的共同作者”写道：“每个节点上FPGA资源的可用性允许特定应用的处理器卸载，这一功能在我们所知的任何规模的并行计算机上均不可用。”“[大多数]性能关键步骤已在FPGA上卸载和优化，而ARM[处理器]…提供了辅助支持。”

用AI玩Atari游戏

研究人员在神经计算机中每个卡的27个节点中使用了26个，对总共416个节点进行了实验。他们的Atari游戏应用程序的两个实例在416个FPGA的每个上运行，最多可扩展到832个并行运行的实例。每个实例都从给定的Atari2600游戏中提取帧，执行图像预处理，通过机器学习模型运行图像，并在游戏中执行操作。

为了获得最高的性能，该团队避免仿真Atari2600，而是选择使用FPGA以更高的频率实现控制台的功能。他们采用了开源MiSTer项目的框架，该项目旨在使用现代硬件重新创建控制台和街机，并将Atari2600的处理器时钟从3.58MHz提高到150MHz。每秒产生约2514帧，而最初的每秒60帧。

在图像预处理步骤中，IBM的应用程序将帧从彩色转换为灰度，消除了闪烁，将图像缩放为较小的分辨率，然后将帧堆叠为四组。然后将这些信息传递到推理游戏环境的AI模型和一个子模块，该子模块通过识别AI模型预测的最大奖励来选择下一帧的动作。

另一算法（遗传算法）在通过PCIe连接连接到神经计算机的外部计算机上运行。它评估了每个实例的性能，并确定了性能最高的一类，并将其选作下一代实例的“父级”。

在五个实验过程中，IBM研究人员在神经计算机上运行了59个Atari2600游戏。结果表明，与其他强化学习技术相比，该方法的数据效率不高-总共需要60亿个游戏框架，但在蒙特祖玛的《复仇》和《陷阱》等具有挑战性的探索游戏中却失败了。但是，经过6分钟的训练（2亿个训练帧），而不是Deep-Q网络的10天训练，它在59款游戏中的30场中跑赢了流行的基准-DeepQ-网络，这是DeepMind率先提出的架构。它拥有60亿个训练帧，在36场比赛中超过了DeepQ网络，而训练时间却减少了2个数量级（2小时30分钟）。

上一篇: Waymo的AI使用向量来预测行人，骑车人和驾驶员的行为

下一篇: （以前是Augean）Burro向现场工作人员伸出援手

发布时间: