查看原文
其他

云原生文件存储 CFS 线性扩展到千亿级文件数,百度沧海·存储论文被 EuroSys 2023 录用

ZPF 百度智能云技术站 2023-07-25

论文的测试结果显示,在 50 节点规模的测试中,与 HopsFS 和 InfiniFS 相比,百度沧海的云原生文件存储 CFS 各操作的吞吐量提高至 1.76 - 75.82 倍和 1.22 - 4.10 倍,并将它们的平均延迟分别最高降低了 91.71% 和 54.54%。在竞争较高和目录较大的情况下,CFS 的吞吐量优势则会进一步扩大一个数量级。

百度智能云技术站将在将在 5 月 25 日的更新中为大家做论文的深度解读。


恭喜百度沧海·存储和中科大合作的论文《CFS: Scaling Metadata Service for Distributed File System via Pruned Scope of Critical Sections》(以下简称论文)被 EuroSys 2023 录用。

EuroSys 全称欧洲计算机系统会议(The European Conference on Computer Systems),是计算机系统领域的顶级会议,和 VLDB、FAST、NSDI 等同属中国计算机学会 CCF 推荐的 A 类会议。

本次 EuroSys 会议于 2023 年 5 月 8 日 - 12 日在罗马举办,会议从投稿的 335 篇论文中录用了 54 篇,录用率仅为 16.1%。

论文介绍了百度智能云 CFS 文件存储元数据系统的核心设计,对长期困扰文件系统元数据领域的 POSIX 兼容性和高扩展性(特别是写扩展性)难以兼顾的问题,进行了解答。

这是一个大规模分布式文件系统能否扩展到百亿甚至千亿级别文件数,同时保持高性能稳定性的一个关键问题。

论文的核心思路是通过修剪关键冲突域的范围来减少锁的开销,从而消除元数据管理的瓶颈,具体包括:

  • 采用层次化、模块化的元数据组织结构,系统不再有专门的元数据模块,而是将整个元数据的存储和处理拆解到负责目录和索引的 TafDB、负责文件的 FileStore、负责 slow path rename 的 Renamer,和客户端,每一部分根据各自的特点独立扩展。

  • 通过分析和拆解 POSIX 操作的实质要求,TafDB 引入单分片原子原语,提升单个分片处理性能的同时,缩短了元数据请求的处理耗时,消除了虚假的跨分片冲突。

  • 在上述设计的基础上,CFS 放弃了传统实现存在的元数据代理层,直接由客户端提供完整的 POSIX 语义兼容性,客户端数量可以自由扩展。

论文的测试结果显示,在 50 节点规模的测试中,与 HopsFS 和 InfiniFS 相比,CFS 各操作的吞吐量提高至 1.76 - 75.82 倍和 1.22 - 4.10 倍,并将它们的平均延迟分别最高降低了 91.71% 和 54.54%。在竞争较高和目录较大的情况下,CFS 的吞吐量优势则会进一步扩大一个数量级。

CFS 的这套设计已经在生产环境中稳定运行了超过 3 年时间,为云上蓬勃发展的的大数据、AI、容器、生命科学等场景的业务提供了有力支撑。


关于百度沧海·存储

百度沧海·存储构建的统一存储技术底座,为各类分布式存储产品提供统一的技术能力支撑,加速智能计算,释放数据价值。

- - - - - - - - - - END - - - - - - - - - - 

点击阅读原文,了解百度沧海更多信息

传送门
  1. 每秒创建百万文件,百度沧海·文件存储 CFS 推出新一代 Namespace 架构
  2. AI 应用的全流程存储加速方案技术解析和实践分享
  3. 面向高性能计算场景的存储系统解决方案
  4. 面向大数据存算分离场景的数据湖加速方案
  5. 面向百度网盘的大规模数据面存储架构思考与设计
  6. 面向大规模数据的云端管理,百度沧海存储产品解析
  7. 数据湖系列之二 | 打造无限扩展的云存储系统,元数据存储底座的设计和实践
  8. 数据湖系列之一 | 你一定爱读的极简数据平台史,从数据仓库、数据湖到湖仓一体
  9. 大模型时代的异构计算平台

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存