IBM称其已经击败了的AI服务器扩 - 北京丰台长辛店其他生活服务

区域：: 北京 > 丰台 > 长辛店

IBM称其已经击败了的AI服务器扩展记录

今天，IBM宣布推出其分布式深度学习软件测试版，阐释了“深度学习性能的一大飞跃进展”。

深度学习是一种依赖于“人造神经网络”应用程序的AI形式，而这种AI的灵感来自于人类和动物大脑的生物神经网络。其重点在于使电脑能够以与人类完全相同的方式来“理解”数字图像、视频、录音等内容。

然而，由于处理“深层次培训”所需的大量数据的后勤工作是一个非常缓慢的过程，可能需要几天甚至几周的时间，深度学习还有很大的潜力尚未被发掘。另外一个影响时间的因素就是结果的准确性，因为系统需要被操作多次才能获得预期的结果。度越高意味着计算机在获得准确的结果之前需要接受“再次培训”的次数就越少。

由于仅仅增加更多的计算能力和更快的处理器，并不会加快计算机处理速度，所以减少时间因素颇有难度。其实恰恰相反：随着“自学者”处理器的增加，计算时间也会不出所料的减少，但是每个处理器的学习时间是相同的。

换句话说，即是瓶颈因素阻碍了深度学习的发展。更多文章阅读：香港云主机cn.blu***

IBM在一份研究报告中解释说：“成功的分布式深度学习需要一个基础架构，其中硬件和软件被共同优化，以便在计算需求与通信需求、互连带宽之间取得平衡。此外，在GPU的大规模扩展（数量超过100）中，通讯延迟发挥着重要的作用。如果这些因素未得到控制，那么分布式深度学习可快速导致收益削减。”

因此，大多数的深度学习项目仅可在单服务器中安装启用，IBM的新型研究和新软件也围绕单服务器项目展开。该公司对于如何加速处理过程而获得更准确的结果已有所了解。

IBM Research的系统加速和内存总监Hillery Hunter在一篇博文中写道：“大多数流行的深度学习框架可扩展到一个服务器中的多个GPU，但无法扩展到多个配有 GPU 的服务器。具体来说，我们的团队编写了软件和算法，能够对在数十个服务器中的数百个 GPU 加速器间并行运行的、非常庞大且复杂的计算任务进行自动优化。”

在测试时，该软件在64 个 IBM Power 系统中的 256 个NVIDIA GPU 上部署了 Caffe 深度学习框架，每个系统连接4个NVidia Tesla P100-SXM2 GPU，在此期间，IBM研究人员记录了通讯开销，并且该软件的扩展效率高达95%，一举打败了之前由 AI 研究院所取得的89%的佳扩展能力，他们利用较小的学习模型和数据设置，降低了复杂性。

此外，我们在使用一个非常庞大的数据集（750万张图像）训练神经网络时，图像识别准确率达到了33.8%，而Microsoft 此前发布的结果仅为29.8%。

Hunter写道：“我的IBM Research团队一直致力于减少具有大规模数据集的大型模型的培训时间。我们的目标是减少深度学习培训的时间，从几天或几小时的时间缩短至几分钟或几秒钟，并提高这些AI模型的准确率。为了实现这一目标，我们正努力解决在大量服务器和GPU中分布深度学习所遇到的巨大挑战。”

Hunter和她的团队毋庸置疑已经在加速深度学习培训上取得了很大的进展，并且训练仅花了7个小时。

参阅之前的行业纪录，她说：“微软训练同一个模型需要花费10 天时间。这一成果需要我们创建分布式深度学习代码和算法，从而解决对强大的深度学习框架进行扩展的固有难题。”

该“蓝色巨人”（IBM公司）在测试中所开发的IBM研究院分布式深度学习软件代码的测试版本或技术预览版，现已运用于IBM PowerAI 4.0中，其中使用深度学习框架训练其 AI 模型的开发人员也可以使用这项集群扩展功能。

Hunter说：“我们希望通过为 AI 社区提供 DDL功能，使得更多的人将利用集群的强大功能进行 AI 模型训练，从而实现更高的准确性。”