基于对未来数据爆炸的担忧,IBM的研究人员近日搭建完成了一个超快速的存储系统,这一系统能够在43分钟内对100亿份文件进行扫描。
这一新的系统轻而易举地击败了他们此前在Supercomputing 2007上演示的上一代系统。当时,上一代系统能够在三小时内对10亿份文件进行扫描。
提高性能的关键是应用闪存来存储元数据,元数据主要用于信息定位。元数据一般存储于磁盘上,这也导致整个系统的访问较为缓慢。
负责搭建这套新系统的IBM Research Almaden存储系统总监Bruce Hillsberg认为:“如果我们有非常快的存储介质的话,那么我们就可以更为迅速的进行数据操作。通过以固态存储介质存储元数据的方式,使我们能够更加快速地进行一些管理任务的操作。”
IBM预计,其用户在未来几年中将会面对海量信息的挑战。
“未来用户在存储和处理海量数据方面将花费大量的时间,因此他们将需要更有效的方式管理这些数据。”Hillsberg说。
IBM为新的演示系统搭建起了一个拥有10颗8核处理器的服务器集群,这一集群配置了6.8TB的固态存储。IBM在新的系统上使用了Violin Memory的四个3205固态存储产品,这使得这一系统能够获得近5 GB/s的文件吞吐量。
该系统同时还采用了IBM的通用并行文件系统(GPFS)3.4版本。Hillsberg表示,GPFS最初用于高性能计算系统的开发,不过如今,这一文件系统也同其他企业级大数据工作流联系起来。GPFS允许所有的处理器内核并行写入和读取磁盘,这样可以大大提高存储系统的响应速度。
Hillsberg认为,如今的文件系统已经不仅仅适用于管理像跨多个存储系统形成单一命名空间这类的应用。2007年的那次演示,展示的是像GPFS这类并行文件系统如何用于高度可扩展的存储系统之上。而新的演示则是为了证明固态存储的性能魅力。
研究人员同时还发布了一份白皮书,这份白皮书描述了系统架构方面的细节,以帮助第三方能够重新搭建类似的系统。
IBM也可能将这种构思用于自己的产品之上,Hillsberg表示。早年间IBM在建设固态系统方面的研究工作如今已经结出了丰厚的果实,比如说IBM Easy Tier自动分层存储产品,这一产品能够帮助系统对固态硬盘和常规磁盘之间的数据进行自动均衡与迁移。
“通过本次试验,我认为你会看到一些非常有趣的研究成果。”Hillsberg在谈到本次演示时表示。
IBM并非唯一一家热衷于通过固态存储来提高性能的机构。在本月Association for Computing Machinery出版的《通讯》刊物上,来自于美国卡内基-梅隆大学和英??特尔实验室的研究人员发表文章描述了一个新的服务器架构,这一架构内部整合了低功耗处理器和闪存,其可以显著加速大型网站的日常业务。
同IBM的配置类似,这一组研究人员所搭建的Fast Array of Wimpy Nodes(FAWN)架构只需要相对更少的闪存来存储最经常被访问的数据。他们表示,尽管固态存储的成本要比传统磁盘贵上10倍,不过其至少可以达到两倍的性能提升。