Data Virtualization (Ảo hóa dữ liệu) là chủ đề được rất nhiều doanh nghiệp lớn quan tâm. Sau những dự án về Data Warehouse, Data Lake thì ảo hóa dữ liệu giúp áp dụng công nghệ dữ liệu tiên tiến để quản trị dữ liệu một cách hiệu quả.
Theo định nghĩa, ảo hóa dữ liệu là khả năng xem, truy cập và phân tích dữ liệu mà không cần biết đến vị trí của nó. Công nghệ ảo hóa dữ liệu có thể tích hợp các nguồn dữ liệu trên nhiều loại dữ liệu và vị trí khác nhau thành một nguồn, biến nó thành một chế độ xem logic duy nhất mà không cần thực hiện bất kỳ việc sao chép hoặc di chuyển dữ liệu nào.
Với IBM Cloud Pak for Data, đây là tính năng sẵn có (out-of-the box). Ảo hóa dữ liệu kết hợp với Watson Knowledge Catalog (WKC) cung cấp 1 quy trình quản lý dữ liệu đồng nhất cho toàn bộ doanh nghiệp. Ảo hóa dữ liệu giúp quy trình tự phục vụ dữ liệu (data self-service) sớm trở thành hiện thực.
Hình 1: Kết nối dữ liệu từ nhiều nguồn vào một tập dữ liệu
Các bảng giống nhau từ nhiều nguồn có thể được kết hợp thành một bảng ảo duy nhất, tạo ra một định nghĩa thống nhất chứa các cột và dữ liệu từ tất cả các nguồn dữ liệu liên quan. Việc phân đoạn được thực hiện theo chiều dọc (có thể là tập hợp con hoặc là tổng của các cột). Sau đó, ta có thể chạy các truy vấn trên bảng ảo kết quả không khác gì cách thực hiện truy vấn trên các bảng thật.
Sau khi cài đặt dịch vụ Ảo hóa dữ liệu, ta có thể quản lý người dùng, kết nối với nhiều nguồn dữ liệu, tạo và quản lý tài sản dữ liệu ảo, sau đó sử dụng dữ liệu ảo hóa.
Lợi ích
Sau khi tạo kết nối với các nguồn dữ liệu trong doanh nghiệp của mình, ta có thể nhanh chóng xem tất cả dữ liệu trong tổ chức. Chế độ xem dữ liệu ảo này cho phép phân tích theo thời gian thực mà không cần di chuyển dữ liệu, sao chép, ETL hoặc mua thêm các thiết bị lưu trữ bổ sung, vì vậy thời gian xử lý được tăng tốc đáng kể. Giải pháp này mang lại kết quả phân tích chuyên sâu theo thời gian thực cho các ứng dụng ra quyết định giúp việc phân tích nhanh hơn và đáng tin cậy hơn so với các phương pháp không sử dụng ảo hóa.
An ninh
Các cơ chế xác thực và phân quyền tập trung đã được triển khai để người sử dụng nền tảng truy cập các nguồn dữ liệu trong một môi trường đáng tin cậy. Các role như Data Virtualization Admin, Data Virtualization Engineer, Data Virtualization Steward và Data Virtualization User cung cấp khả năng quản lý truy cập chi tiết cho các tài sản ảo hóa. Người dùng Cloud Pak for Data muốn sử dụng các chức năng Ảo hóa dữ liệu phải được phân quyền sử dụng vào các role cụ thể nêu trên theo nhu cầu công việc.
Tất cả giao tiếp giữa môi trường và ứng dụng được mã hóa an toàn bằng công nghệ của IBM và bằng cách sử dụng các giao thức tiêu chuẩn mã hóa SSL/TLS.
Hỗ trợ nền tảng
Ảo hóa dữ liệu hỗ trợ các truy vấn bằng cách sử dụng SQL tiêu chuẩn thông qua các giao tiếp phổ biến như R, Spark, Python và Jupyter Notebooks. Ngoài ra, các truy vấn cũng được hỗ trợ bởi các công cụ ứng dụng phân tích phổ biến nhất, bao gồm IBM Watson Studio và Cognos Analytics.
Tham khảo:
https://www.ibm.com/docs/en/cloud-paks/cp-data/3.5.0?topic=data-virtualizing
https://www.ibm.com/docs/en/cloud-paks/cp-data/4.0?topic=services-data-virtualization