组织在选择人工智能存储解决方案时,需要考虑多种因素,以确保其能够高效地处理机器学习和人工智能任务。为了更好地收集和管理数据,组织应关注那些能提升效率和性能的产品。
评估和选择合适的人工智能数据存储方案时,以下几点尤为关键:
在机器学习和人工智能培训中,低延迟至关重要,因为它直接影响模型的迭代速度和准确性。因此,所选的存储产品必须能够满足特定工作的需求,同时在性能和成本之间找到平衡。
分层方法
在购买存储设备时,成本和性能是最主要的考量因素。尽管大多数组织倾向于选择性能最好的设备,但这通常意味着更高的成本。因此,采用分层存储策略显得尤为重要。分层存储能够根据数据的访问频率和重要性,合理分配不同层次的存储资源。
对于机器学习和人工智能而言,分层存储需要特别注意数据的随机访问特性。传统的分层方法可能无法完全适应这些需求。理想的分层策略应当考虑到数据在整个生命周期中的变化,确保新数据得到优先处理,而旧数据则逐步转移到成本较低的存储介质上。
两层存储模型
为机器学习和人工智能设计存储系统时,采用两层模型是一种简单而有效的方式。第一层(高性能层)应提供尽可能高的性能和最低的延迟,以应对最大规模的数据集。第二层(容量层)则负责长期存储所有数据,确保数据的安全性和持久性。
高性能的闪存设备因其低延迟和高吞吐量成为理想的选择。然而,这些设备的价格较高,市场上出现了许多创新的解决方案,如三星Z-NAND和东芝XL闪存,这些产品为存储系统提供了新的可能性。
持久性的重要性
数据持久性是存储系统的重要特性之一。传统的存储系统通过RAID技术来保护数据,但在面对大规模灾难时,仍需额外措施。纠删码技术可以更有效地保护数据,即使硬盘、服务器或整个数据中心发生故障,数据也不会丢失。
对象存储系统非常适合长期存储数据,尤其是那些需要跨越数年时间保存的数据。虽然这些系统通常基于成本较低的硬盘构建,但它们并不适合频繁的数据处理任务,更适合用于归档和备份。
混合存储架构
企业面临的主要挑战之一是如何构建一个既具备高可扩展性又拥有高性能的混合存储架构。对象存储系统允许企业存储大部分数据,而某些高需求数据则被存储在高性能的闪存节点上。这种架构的优势在于可以灵活地增加容量或性能节点,以适应不断变化的需求。
存储系统必须能够为人工智能应用提供足够的网络带宽,以确保数据在不同存储层之间顺畅传输。例如,Nvidia的DGX系列平台每秒可以消耗大量的数据,因此,存储系统必须具备低延迟的连接能力。
软件定义存储
构建机器学习和人工智能存储系统并不一定意味着投资于高端硬件。软件定义存储(SDS)是一种新兴的选择,它利用新技术如NVMe来提升性能。此外,SDS还可以轻松部署在公共云中,为企业提供了更大的灵活性。
WekaIO的Matrix平台就是一个例子,它既可以部署在本地服务器上,也可以部署在公共云中。Excelero NVMesh则是另一个SDS解决方案,它可以跨多个服务器扩展性能,并与IBM的Spectrum Scale结合,形成一个扩展文件系统。
数据移动性
将容量和高性能层整合到单一存储系统中,需要实现数据在不同层级之间的自动迁移。一些人工智能存储解决方案可以直接与对象存储集成,简化这一过程。公共云也是机器学习和人工智能开发的一个有力工具,因为它允许企业在不同云服务之间自由移动数据,而不产生额外的存储费用。
综合考虑
为了满足机器学习和人工智能应用的需求,企业需要综合考虑容量和性能两个方面。对于高性能需求,可以选择定制化的解决方案或现成的融合基础设施。而对于容量需求,则可以考虑使用对象存储来实现长期的数据存储。
转向公共云时,企业可以利用本地服务,如对象存储和块存储。尽管文件存储在延迟方面仍有改进空间,但结合SDS或人工智能专用存储产品,可以显著提升性能。