CÔNG TY CỔ PHẦN CÔNG NGHỆ BẰNG HỮU


Tin tức

IBM Storage Ceph: Giải Pháp Lưu Trữ Linh Hoạt Cho Kỷ Nguyên Dữ Liệu Số

1. Giới thiệu giải pháp lưu trữ phân tán IBM Storage Ceph

IBM Storage Ceph là hệ thống lưu trữ đối tượng phân tán, được thiết kế để cung cấp hiệu suất vượt trội, độ tin cậy cao và khả năng mở rộng mạnh mẽ. Là nền tảng lưu trữ định nghĩa bằng phần mềm quy mô lớn và an toàn, IBM Storage Ceph phục vụ cho cơ sở hạ tầng đám mây và lưu trữ đối tượng quy mô web, đặc biệt dành cho những tổ chức có nhu cầu quản lý lượng dữ liệu không cấu trúc ngày càng lớn.

Các lợi ích nổi bật của IBM Storage Ceph bao gồm:

  • Khả năng hỗ trợ giao diện đa dạng: IBM Storage Ceph hỗ trợ nhiều API ngôn ngữ (C/C++, Java, Python), giao diện RESTful (S3/Swift), giao diện thiết bị khối và hệ thống tệp, mang đến sự linh hoạt cho các hệ thống ứng dụng.
  • Hỗ trợ đa dạng phương thức lưu trữ: IBM Storage Ceph cung cấp ba loại lưu trữ chính – lưu trữ đối tượng (Object Storage), lưu trữ khối (Block Storage), và lưu trữ tệp (File Storage) – đáp ứng nhu cầu đa dạng của doanh nghiệp từ quản lý dữ liệu không cấu trúc đến triển khai cơ sở dữ liệu và hệ thống tệp chia sẻ.
  • Khả năng mở rộng vượt trội: Hệ thống có thể mở rộng từ petabytes đến exabytes, cho phép hàng nghìn người dùng truy cập và khai thác dữ liệu trên nền tảng đám mây, đặc biệt tương thích tốt với các nền tảng như Red Hat Enterprise Linux OSP.

IBM Storage Ceph có thể được tích hợp với IBM watsonx.data để tạo một data lakehouse, tối ưu hóa dữ liệu, phân tích và các ứng dụng AI. Với watsonx.data, người dùng có một điểm truy cập duy nhất tới các môi trường lưu trữ và phân tích, giúp tối ưu hóa tốc độ truy vấn.

IBM Storage Ceph nổi bật với khả năng hỗ trợ ba phương thức lưu trữ chính, đáp ứng nhu cầu đa dạng của các doanh nghiệp:

Lưu trữ đối tượng (Object Storage)

IBM Storage Ceph hỗ trợ lưu trữ đối tượng thông qua RADOS Gateway (RGW), tương thích với giao diện RESTful phổ biến như S3 và Swift, giúp truy xuất dữ liệu qua các API hiện đại. Lưu trữ đối tượng được thiết kế để quản lý dữ liệu không cấu trúc, phù hợp cho các ứng dụng hiện đại yêu cầu truy cập nhanh và dễ dàng mở rộng.

Lưu trữ khối (Block Storage)

Để cung cấp lưu trữ khối, IBM Storage Ceph sử dụng RADOS Block Device (RBD) – một giải pháp thiết bị khối ảo cho phép triển khai lưu trữ có độ bền cao và truy cập nhanh chóng. Lưu trữ khối phù hợp cho các ứng dụng cần cấu trúc dữ liệu cố định và hiệu suất cao như cơ sở dữ liệu, các ứng dụng giao dịch và máy ảo.

Lưu trữ tệp (File Storage)

Ceph File System (CephFS) là hệ thống tệp tuân thủ POSIX, cung cấp giải pháp lưu trữ tệp tin tập trung, có khả năng chia sẻ và bảo mật. Điều này đặc biệt hữu ích trong môi trường cần chia sẻ dữ liệu giữa nhiều người dùng hoặc các ứng dụng yêu cầu tính nhất quán. Với khả năng hỗ trợ lưu trữ tệp, IBM Storage Ceph mang lại một giải pháp hiệu quả cho các tổ chức cần hệ thống tệp chia sẻ trong các trung tâm dữ liệu.

Với những tính năng ưu việt và cấu trúc mạnh mẽ, IBM Storage Ceph giúp doanh nghiệp tối ưu hóa hạ tầng CNTT và quản lý hiệu quả khối lượng dữ liệu khổng lồ, đáp ứng tốt yêu cầu của các nền tảng điện toán đám mây và ứng dụng AI.

2. Kiến trúc logic hệ thống của IBM Storage Ceph

Tâm điểm của mọi triển khai Ceph là IBM Storage Ceph Cluster, gồm ba loại daemon chính:

Ceph Monitor: Duy trì bản sao chính của bản đồ cụm IBM Ceph Storage, lưu trữ trạng thái hiện tại của cụm và đảm bảo sự nhất quán nhờ vào thuật toán Paxos.

Ceph Manager: Cải thiện hiệu suất ở quy mô lớn bằng cách duy trì thông tin chi tiết về các nhóm phân bố, dữ liệu quy trình và thông tin host. Ceph Manager cũng thực thi nhiều truy vấn đọc của CLI Ceph và cung cấp API giám sát RESTful.

Ceph OSD Daemon: Lưu trữ dữ liệu cho các máy khách Ceph và sử dụng CPU, bộ nhớ và mạng của các node Ceph để thực hiện các chức năng sao chép, mã hóa xóa, cân bằng tải, khôi phục, giám sát và báo cáo.

Ceph client interfaces đọc và ghi dữ liệu đến cụm lưu trữ IBM Ceph Storage cluster. Để kết nối với cụm IBM Ceph Storage, Ceph client cần:

  • Tệp cấu hình Ceph, tên cụm (thường là “ceph”) và địa chỉ của monitor.
  • Tên pool lưu trữ.
  • Tên người dùng và đường dẫn đến khóa bảo mật.

Ceph client không cần một chỉ mục tập trung mà sử dụng thuật toán CRUSH để xác định nhóm phân phối và OSD chính cho việc lưu trữ dữ liệu. Ceph client cung cấp tên đối tượng và tên pool cho librados, cho phép trực tiếp kết nối và thực hiện các thao tác đọc và ghi với OSD chính mà không qua trung gian.

Khi một OSD lưu trữ dữ liệu, nó nhận dữ liệu từ một Ceph client – dù đó là Ceph Block Device, Ceph Object Gateway, Ceph Filesystem hoặc một giao diện khác – và lưu trữ dữ liệu dưới dạng một đối tượng. Lưu ý: Mỗi ID đối tượng là duy nhất trên toàn bộ cụm, không chỉ trên phương tiện lưu trữ của một OSD.

Ceph OSDs lưu trữ tất cả dữ liệu dưới dạng các đối tượng trong một không gian tên phẳng, không có cấu trúc phân cấp thư mục. Một đối tượng có một định danh duy nhất trên toàn cụm, gồm ID, dữ liệu nhị phân và metadata bao gồm các cặp tên/giá trị.

IBM Storage Ceph clusters bao gồm các loại nodes sau:

  • Ceph Monitor: Quản lý bản đồ cụm lưu trữ, hỗ trợ độ sẵn sàng cao trong môi trường sản xuất với ít nhất 3 Ceph Monitor nodes.
  • Ceph Manager: Cung cấp dịch vụ bổ sung để giám sát và quản lý qua các mô-đun Ceph Manager.
  • Ceph OSD (Object Storage Device): Lưu trữ dữ liệu từ Ceph client, thường với cấu hình tối ưu khi có nhiều OSD nodes để phân tách miền lỗi.
  • Ceph Metadata Server (MDS): Quản lý metadata liên quan đến các tệp trong Ceph File System (CephFS), điều phối truy cập vào cụm lưu trữ chung.
  • Ceph Object Gateway: Cung cấp điểm truy cập lưu trữ đối tượng qua giao diện RESTful, tương thích với API Amazon S3 và OpenStack Swift, cho phép tích hợp ứng dụng dễ dàng.

3. Kiến truc physical hệ thống của IBM Storage Ceph với IBM Storage Ready Node

IBM Storage Ceph là một kiến trúc lưu trữ định nghĩa bằng phần mềm (SDS) với khả năng mở rộng và sẵn sàng cao. Các IBM Storage Ready Nodes được kết nối với nhau thông qua các switch dữ liệu tốc độ cao, cung cấp cả quyền truy cập cho các client và lưu trữ dữ liệu một cách bền vững.

Sơ đồ kiến trúc sau đây trình bày tổng quan về các thành phần vật lý tham gia trong nền tảng IBM Storage Ready Node:

Các IBM Storage Ready Nodes hỗ trợ IBM Storage Ceph SDS. Việc sử dụng hai switch dữ liệu giúp đảm bảo cả khả năng sẵn sàng cao (HA) và băng thông liên kết lớn hơn nhờ vào liên kết kết hợp (link aggregation) trong điều kiện vận hành bình thường. Các uplink của switch dữ liệu kết nối với mạng cơ sở hạ tầng theo cấu hình spine-leaf HA. Các kết nối từ client được thực hiện qua các kết nối cơ sở hạ tầng đến switch dữ liệu. Mạng quản lý Out of Band (OOB) riêng biệt hỗ trợ quản lý phần cứng và firmware của nền tảng IBM Storage Ready Nodes. Mỗi Ready Node có một kết nối mạng riêng với switch quản lý và một bảng điều khiển liên quan.

Toàn bộ hệ thống IBM Storage Ready Nodes có các đặc điểm sau:

  • Một rack trung tâm dữ liệu có khả năng hỗ trợ các IBM Storage Ready Nodes và các switch mạng.
  • Các Rack PDU (bộ cấp nguồn phân phối) với công suất đủ lớn và độ sẵn sàng cao 1+1. Các PDU này cung cấp nguồn cho các thành phần trong rack, tuân thủ theo các yêu cầu của quy định điện địa phương.
  • Nhiều máy chủ Ready Node hỗ trợ các nhu cầu về dung lượng, hiệu suất, và tính sẵn sàng cũng như toàn vẹn dữ liệu của khách hàng.
  • Các switch dữ liệu và switch quản lý kết nối các Ready Nodes với mạng trung tâm dữ liệu và bảng điều khiển quản lý.

Khả năng sẵn sàng cao (HA) của hệ thống bao gồm:

  • Cấp nguồn PDU với cấu hình 1+1 HA đến tất cả các thành phần.
  • Bộ cấp nguồn chia sẻ 1+1 HA (PSU) tích hợp trong Ready Nodes và các switch.
  • Kết nối mạng dữ liệu 1+1 HA với các kết nối mạng dữ liệu hợp nhất để đạt băng thông tối đa.
  • Ổ đĩa hệ điều hành của Ready Node được sao lưu mirror.
  • Khả năng sẵn sàng và khả năng phục hồi dữ liệu nguyên bản từ IBM Storage Ceph.
  • Sao chép dữ liệu và mã xoá (Erasure Coding – EC) dựa trên số lượng Ready Nodes.
  • Khả năng phục hồi khi có lỗi cấp độ node.

4. Kết luận

IBM Storage Ceph là giải pháp lưu trữ định nghĩa bằng phần mềm toàn diện, giúp doanh nghiệp đáp ứng linh hoạt nhu cầu lưu trữ đa dạng trong kỷ nguyên dữ liệu số. Với khả năng hỗ trợ ba phương thức lưu trữ chính – đối tượng, khối, và tệp – IBM Storage Ceph cho phép tổ chức quản lý hiệu quả cả dữ liệu không cấu trúc, cơ sở dữ liệu, và hệ thống tệp tập trung.

Không chỉ dừng lại ở việc cung cấp hiệu suất vượt trội và khả năng mở rộng từ petabytes đến exabytes, IBM Storage Ceph còn tích hợp tốt với hạ tầng đám mây và các ứng dụng AI. Nhờ vào khả năng tương thích rộng với nhiều giao diện và nền tảng như Red Hat Enterprise Linux OSP, IBM Storage Ceph giúp doanh nghiệp dễ dàng tùy biến và tối ưu hóa hệ thống lưu trữ theo nhu cầu phát triển.

Với kiến trúc mở rộng linh hoạt và khả năng sẵn sàng cao, IBM Storage Ceph mang đến nền tảng vững chắc cho các doanh nghiệp trong hành trình chuyển đổi số, hỗ trợ cả hiện tại và tương lai của các ứng dụng dữ liệu và trí tuệ nhân tạo.

Linh Vu Thuy

Linh Vu Thuy