沙虫科技网logo.png3D科技网

3D科技网
提供IT业界的新鲜事、奇趣事和热门焦点,掌控最热最新的互联网新闻、科技新闻和IT业界动态。
3D科技网

机器学习和人工智能的数据存储架构

企业组织对机器学习(ML)和人工智能(AI)的兴趣日益浓厚。市场正在迅速从专为研发而设计的基础架构转变为能够快速响应新业务需求的交钥匙解决方案。ML / AI是涵盖所有行业的战略技术,它可以改善业务流程,同时增强整个组织的竞争力。

ML / AI软件工具正在改进,并且变得更加用户友好,从而使构建新应用程序或将现有模型重用于更多用例变得更加容易。随着ML / AI市场的成熟,高性能存储(HPC)供应商现在已加入了传统的存储制造商,这些存储制造商通常专注于企业工作负载。即使要求与大数据分析工作负载的要求相似,但ML / AI算法和基于GPU的计算的特定性质仍需要对吞吐量和$ / GB给予​​更多关注,这主要是因为大多数应用程序涉及的数据量很大项目。

根据多个因素,包括组织的战略,规模,安全需求,合规性,成本控制,灵活性等,基础架构可以完全是本地的,也可以是公共云中的,也可以是两者的结合(混合)–图1。最灵活的解决方案旨在在所有这些情况下运行,从而为组织提供了足够的选择自由。通常,由熟练团队运行的长期和大容量项目更可能在本地开发。公共云通常由较小的团队选择,因为它具有灵活性和较少的项目需求。

ML / AI工作负载需要提高基础架构的效率才能产生快速的结果。除了初始数据收集之外,工作流的许多部分会随着时间的推移而重复,因此,管理延迟和吞吐量对于整个过程至关重要。系统必须在快速处理元数据的同时最大程度地提高吞吐量,以确保始终以最大容量提供系统GPU。

单个现代GPU是非常昂贵的组件,能够以6GB / s或更高的速度处理数据,并且每个单个计算节点都可以安装多个GPU。此外,CPU的存储空间很重要,这也是为什么通常选择基于NVMe的闪存设备的并行化和性能特征。而且,数据集需要大量的存储容量来训练神经网络。因此,通常首选向外扩展对象存储,因为它们具有可伸缩性,丰富的元数据和具有竞争力的成本。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

相关推荐