Trong bối cảnh cuộc đua chuyển đổi số ngày càng quyết liệt, dữ liệu đã trở thành “nhiên liệu mới” cho tăng trưởng doanh nghiệp. Tuy nhiên, việc tạo ra dữ liệu chưa bao giờ là vấn đề – khó khăn thực sự nằm ở khả năng tổ chức, hiểu và khai thác dữ liệu để tạo ra giá trị kinh doanh. Các doanh nghiệp liên tục triển khai hệ thống mới, ứng dụng mới và lưu trữ dữ liệu trên nhiều nền tảng khác nhau, khiến bức tranh dữ liệu trở nên rời rạc, phức tạp và thiếu nhất quán. Điều này gây ra trở ngại lớn cho các dự án AI vốn cần dữ liệu chất lượng, có cấu trúc và có ngữ nghĩa.
Phần lớn tổ chức vẫn gặp khó khăn trong việc “hiểu” chính kho dữ liệu của mình, khiến nhiều dự án AI tốn kém nhưng không mang lại hiệu quả mong muốn. Trong bối cảnh đó, IBM đề xuất một hướng tiếp cận mới: đưa trí tuệ vào tầng lưu trữ dữ liệu, giúp hệ thống không chỉ lưu trữ mà còn “học” và “hiểu” nội dung dữ liệu. Bài viết này tổng hợp và mở rộng những nội dung quan trọng từ phần chia sẻ của IBM về hướng tiếp cận đột phá này.
1. Thách thức dữ liệu trong thời đại AI
Doanh nghiệp ngày nay tạo ra dữ liệu ở mọi khía cạnh hoạt động. Từ giao dịch khách hàng, logs của hệ thống, nội dung truyền thông, hình ảnh, video trong sản xuất, đến dữ liệu sensor từ IoT hay robot – tất cả đều đổ về kho dữ liệu doanh nghiệp. Khối lượng dữ liệu tăng theo cấp số nhân, nhưng khả năng quản trị dữ liệu lại không tăng tương ứng.

Các thách thức thường gặp bao gồm:
• Dữ liệu phân mảnh trong nhiều silo công nghệ, mỗi hệ thống một chuẩn, một dạng.
• Các giải pháp lưu trữ được bổ sung theo từng dự án, dẫn đến hạ tầng chắp vá, tốn kém và khó mở rộng.
• Thiếu công cụ hiểu ngữ nghĩa dữ liệu – máy chủ chỉ nhìn thấy file, không hiểu nội dung bên trong.
• Khoảng 80% dữ liệu trở thành dark data – tồn tại nhưng không bao giờ được sử dụng để tạo giá trị.
• Dữ liệu phi cấu trúc (video, âm thanh, tài liệu tự do…) tăng nhanh nhưng lại khó phân tích bằng công cụ truyền thống.
• Đội ngũ AI phải dành phần lớn thời gian để làm sạch, gắn nhãn, phân loại dữ liệu – khiến tốc độ triển khai chậm và chi phí tăng cao.
Hệ quả là rất nhiều dự án AI thất bại ngay từ bước chuẩn bị dữ liệu. Theo nhiều nghiên cứu, 70–80% thời gian triển khai AI nằm ở khâu xử lý dữ liệu, chứ không phải xây dựng mô hình. Điều này cho thấy một vấn đề sâu xa hơn: doanh nghiệp không cần thêm dữ liệu, mà cần dữ liệu có ngữ cảnh, có cấu trúc và có thể khai thác được.
2. Global Data Platform – bước nền cho dữ liệu thống nhất
Để giải bài toán dữ liệu bị phân mảnh, IBM xây dựng Global Data Platform (GDP) – một kiến trúc dữ liệu thống nhất, hỗ trợ toàn bộ vòng đời của dữ liệu và phù hợp với mọi mô hình ứng dụng hiện đại, đặc biệt là AI và phân tích dữ liệu quy mô lớn.

GDP cung cấp ba năng lực cốt lõi:
- Truy cập đa giao thức: hỗ trợ SMB, NFS, S3, POSIX, HDFS và các giao thức đặc thù cho môi trường GPU, giúp mọi ứng dụng có thể truy cập cùng một kho dữ liệu mà không cần chuyển đổi định dạng.
- Hỗ trợ nhiều lớp hạ tầng: doanh nghiệp có thể kết hợp flash để tăng tốc, HDD để tối ưu chi phí, cloud để linh hoạt hoặc tape để lưu trữ dài hạn.
- Triển khai linh hoạt: phù hợp cho on-prem, hybrid hoặc cloud-native, giúp doanh nghiệp mở rộng quy mô theo nhu cầu mà không phụ thuộc vào một nhà cung cấp duy nhất.
Trung tâm của GDP là IBM Storage Scale – công nghệ được phát triển từ các hệ thống siêu máy tính, nổi bật với khả năng phân phối dữ liệu tốc độ cao và quản lý dữ liệu theo mô hình distributed parallel file system. Điều này cho phép các ứng dụng AI truy xuất dữ liệu với độ trễ thấp và hiệu suất vượt trội.
Tuy nhiên, dù GDP đã giải quyết được bài toán hợp nhất dữ liệu, nó vẫn chỉ giải được một nửa vấn đề. Để phục vụ AI hiệu quả hơn, doanh nghiệp cần một tầng thông minh giúp hệ thống không chỉ lưu trữ mà còn hiểu được dữ liệu.
3. Content-Aware Storage – khi hệ thống lưu trữ bắt đầu hiểu dữ liệu
IBM giới thiệu Content-Aware Storage như một bước tiến mang tính chuyển đổi. Thay vì chỉ là hạ tầng lưu trữ thụ động, hệ thống nay có khả năng phân tích nội dung file một cách tự động và chủ động, tương tự như việc “gắn bộ não AI” trực tiếp vào tầng lưu trữ.

Điểm khác biệt của công nghệ này nằm ở khả năng:
- Tự động nhận diện loại dữ liệu và nội dung bên trong file: văn bản, bảng tính, tài liệu pháp lý, hình ảnh, ảnh chụp màn hình, video, audio…
- Phân loại dữ liệu dựa trên ngữ nghĩa thay vì chỉ dựa trên metadata truyền thống như tên file hoặc dung lượng.
- Trích xuất thông tin từ nội dung đa phương tiện: OCR cho tài liệu, nhận diện đối tượng trong ảnh, chuyển giọng nói thành văn bản…
- Gắn nhãn thông minh (auto-tagging), tổ chức dữ liệu theo chủ đề và tạo ra metadata mở rộng.
- Xây dựng knowledge graph nhằm kết nối dữ liệu rời rạc thành một tập hợp thông tin có logic và ngữ cảnh.
- Tự động cập nhật metadata khi dữ liệu được sửa đổi, đảm bảo tính nhất quán và liên tục.
Nhờ đó, Content-Aware Storage biến dữ liệu thô vốn khó khai thác thành dữ liệu “AI-ready” – sạch, hiểu được và dễ tích hợp vào các pipeline phân tích.
4. Cơ chế hoạt động – từ dữ liệu thô đến dữ liệu AI-ready
Quy trình vận hành của Content-Aware Storage có thể mô tả theo 5 bước chính:

- Thu thập dữ liệu từ nhiều nguồn: tài liệu, hình ảnh, dữ liệu ERP, CRM, logs hệ thống, dữ liệu IoT…
- Nhận dạng thông minh: hệ thống sử dụng AI để đọc và hiểu nội dung giống như con người đọc tài liệu.
- Trích xuất và gắn nhãn: metadata mở rộng được tạo ra tự động, giúp dữ liệu có ý nghĩa và có thể tìm kiếm theo ngữ cảnh.
- Tạo kết nối tri thức: dữ liệu liên quan được liên kết thành cụm, hình thành mạng lưới tri thức (knowledge graph).
- Cung cấp cho pipeline AI: dữ liệu có cấu trúc, sạch, nhất quán giúp mô hình AI học nhanh hơn, chính xác hơn và giảm thiểu công tác chuẩn bị thủ công.
Mô hình này giúp doanh nghiệp chuyển hóa kho dữ liệu vốn hỗn độn, rời rạc thành lớp dữ liệu thông minh có khả năng tự mô tả (self-describing data).
5. Lợi ích dành cho doanh nghiệp

- Tăng tốc triển khai AI: Dữ liệu có ngữ nghĩa giúp rút ngắn đáng kể thời gian chuẩn bị dữ liệu. Đội ngũ AI có thể tập trung vào huấn luyện mô hình thay vì xử lý file, gắn nhãn hoặc tìm kiếm dữ liệu phân tán.
- Khai thác được dark data: Những dữ liệu trước đây bị “bỏ quên” – như email, video an ninh, tài liệu lịch sử – nay trở thành nguồn tri thức giá trị, có thể được dùng để tối ưu vận hành hoặc đưa ra quyết định chiến lược.
- Tối ưu chi phí và hạ tầng: Việc hiểu rõ nội dung dữ liệu giúp giảm trùng lặp, tối ưu phân tầng lưu trữ và phân bổ dữ liệu vào đúng loại hạ tầng phù hợp. Điều này giúp giảm chi phí vận hành mà vẫn tăng hiệu quả khai thác.
- Tăng hiệu quả vận hành nội bộ: Với dữ liệu được tổ chức trực quan và thông minh hơn, nhân sự ở mọi phòng ban có thể dễ dàng tìm kiếm, truy xuất và sử dụng dữ liệu, giúp nâng cao năng suất và giảm thời gian cho các tác vụ thủ công.
- Xây dựng nền tảng dữ liệu lâu dài cho AI: Hạ tầng lưu trữ không còn chỉ là nơi “đặt file”, mà trở thành một nền tảng tri thức hỗ trợ phân tích, học máy, và ra quyết định. Đây là nền móng quan trọng để doanh nghiệp phát triển các ứng dụng AI nâng cao trong tương lai.
Kết luận
Trong thời đại AI, dữ liệu là yếu tố tạo ra khác biệt nhưng chỉ giá trị khi được hiểu đúng và khai thác hiệu quả. IBM Content-Aware Storage đại diện cho xu hướng mới: đưa trí tuệ nhân tạo trực tiếp vào tầng lưu trữ, giúp hệ thống tự nhận biết, phân loại và tổ chức dữ liệu theo cách có ngữ nghĩa. Nhờ đó, doanh nghiệp không chỉ tối ưu hóa hạ tầng, mà còn xây dựng được nền tảng dữ liệu mạnh mẽ, sẵn sàng cho mọi ứng dụng AI trong tương lai.