CÔNG TY CỔ PHẦN CÔNG NGHỆ BẰNG HỮU


Tin tức

AutoAI: Người và máy hỗ trợ lẫn nhau

Song song với việc phát triển các công cụ mới để tăng hiệu quả công việc cho data scientist, các tiến bộ kỹ thuật đã xuất hiện tập trung vào việc tạo ra phần mềm để tự động hóa các tác vụ trong quy trình làm việc của khoa học dữ liệu như AutoML, H2O, DataRobot của Google và các thư viện mã nguồn mở như Auto -sklearn và TPOT. Nhiều hệ thống trong số này được xây dựng trên các thư viện máy học Python scikit-learning. Đó là những ví dụ về AI cho AI. IBM đã đem đến công nghệ AI cho AI tiên tiến nhất và kết hợp công nghệ này vào hệ sinh thái danh mục sản phẩm về data dưới dạng AutoAI.

AutoAI là gì?

AutoAI tự động hóa việc chuẩn bị dữ liệu, phát triển model và tối ưu hóa hyperparameter. Chức năng quản lý vòng đời AI của AutoAI sẽ giúp doanh nghiệp bước đầu khám phá những tính năng và lợi ích mà AutoAI có thể đem lại. AutoAI sẽ hỗ trợ các thử nghiệm tiếp theo, các bước sửa đổi model và quản trị. AutoAI là tính năng out-of-the-box của IBM Cloud Pak for Data. AutoAI cũng có sẵn trên IBM Cloud thông qua IBM Watson™ Studio. 

Công cụ AutoAI tự động phân tích dữ liệu và tạo candidate model pipelines cho các bài toán lập model dự đoán. Các model pipeline này được tạo trong cả một quá trình đủ dài. Lúc này các thuật toán AutoAI tìm hiểu thêm về tập dữ liệu và khám phá các phép biến đổi dữ liệu, thuật toán ước lượng và cài đặt tham số tốt nhất cho bài toán mà doanh nghiệp đang cần xử lý. Kết quả được hiển thị theo bảng xếp hạng, các model pipelines được tạo tự động được xếp hạng theo mục tiêu tối ưu hóa. Doanh nghiệp có thể đánh giá model, điều chỉnh tham số và thử nghiệm thêm.

Cùng nhau tốt hơn: Đặt câu hỏi hay hơn với AutoAI

Khoa học dữ liệu thường liên quan đến việc đặt ra những câu hỏi hay hơn, chẳng hạn như xác định các thuộc tính phù hợp là yếu tố dự báo cho một kết quả thông qua khám phá dữ liệu. Điều đó có nghĩa là cần xây dựng nhiều model, chọn các tính năng và áp dụng các biện pháp tối ưu hóa hyperparameter khác nhau. Các tùy chọn trong AutoAI giúp khám phá các câu hỏi hay hơn bằng cách tăng tốc quá trình AI hoặc bằng cách cung cấp các điểm mà người sử dụng có thể can thiệp.

Toàn bộ quy trình AutoAI có thể được tự động hoàn thành trong vài phút (tùy thuộc vào khối lượng dữ liệu) mà không cần sự can thiệp của con người, tạo ra kết quả cơ sở và phù hợp với những tổ chức mới bắt đầu sử dụng AI. Các chuyên gia có nhiều kinh nghiệm có thể dễ dàng tương tác với AutoAI để kết hợp kiến ​​thức của họ automated pipeline nhằm cải thiện model và tùy chỉnh theo yêu cầu nghiệp vụ đặc thù.

Ví dụ về các điểm tương tác mà các chuyên gia có thể chủ động tham gia vào quy trình AutoAI tự động bao gồm:

  • Chuẩn bị dữ liệu – tách dữ liệu để huấn luyện và kiểm tra với các tập con, điền các giá trị còn thiếu
  • Tinh chỉnh dữ liệu nâng cao – chỉ định một tập hợp con dữ liệu để tiết kiệm tài nguyên và thời gian, kết hợp nhiều nguồn dữ liệu với nhau
  • Ap dụng một số biến đổi tính năng sẵn có, tạo tính năng mới từ sự tương tác của nhiều tính năng
  • Tìm kiếm trong neural network – áp dụng kiến ​​trúc cụ thể từ các nghiên cứu mới nhất
  • Tối ưu hóa AutoAI pipeline – chọn một số thuật toán sẵn có hoặc bổ sung thêm thuật toán mới
  • Tối ưu hóa Hyperparameter (HPO) – bật hoặc tắt HPO, xác định không gian tìm kiếm cho các hyperparameter nhất định.
  • Triển khai nhanh – chọn môi trường triển khai mục tiêu, trên IBM Cloud hoặc trên các cơ sở hạ tầng đám mây khác
  • Khả năng giải thích và loại bỏ thành kiến ​​- phát hiện và giảm thiểu thành kiến ​​từ dữ liệu, thuật toán hoặc đào tạo với sự trợ giúp của AI Fairness 360
  • Quản lý vòng đời AI – giám sát hiệu năng sau triển khai trong thời gian thực và cải thiện hiệu năng model bằng cách học tăng cường chỉ bằng một cú nhấp chuột

Cùng nhau tốt hơn: Hoàn thành AI pipeline nhanh hơn

Đã có những tuyên bố rằng AI do AI xây dựng vượt trội hơn con người. Một nghiên cứu gần đây do Tiến sĩ Dakuo Wang thực hiện có sự tham gia của data scientist. Một số được yêu cầu xây dựng các model bằng IBM AutoAI. Những người tham gia khác đều thực hiện cùng một nhiệm vụ nhưng sử dụng các thư viện Python trong môi trường Jupyter Notebook. Nghiên cứu cho thấy rằng các data scientist làm việc cùng với  AutoAI có thể xây dựng các model tốt hơn đáng kể (0,92 so với 0,90 trong thang điểm ROC AUC), nhanh hơn (4,4 phút so với 15 phút) và ít lỗi do con người gây ra hơn (100% so với 46,7% người tham gia đã hoàn thành nhiệm vụ trong thời gian được giao). Nghiên cứu cũng tiết lộ thái độ của data scientist và cảm nhận tương tác với các hệ thống  AutoAI và những người được phỏng vấn tin rằng sẽ có mối quan hệ hợp tác thay vì mối quan hệ cạnh tranh giữa các data scientist và hệ thống AI tự động. 

AutoAI đã được thiết kế để kết hợp phản hồi của con người và tăng cường thử nghiệm khoa học dữ liệu đồng thời đẩy nhanh quá trình khám phá dữ liệu. Điều này giúp các cá nhân không có kỹ năng lập trình mạnh có thể khám phá các tùy chọn khác nhau, xác định các câu hỏi hay hơn, chọn các model phù hợp nhất và triển khai nhanh chóng các model.  

Các AutoAI dashboard thúc đẩy tương tác của con người, cho phép các data scientist và chuyên gia nghiệp vụ đưa ra lựa chọn hợp lý và đóng góp vào việc tạo model. Trong hình ảnh sau đây của hệ thống IBM AutoAI, ta có thể thấy cách tám pipeline được xây dựng (hình trên) cũng như bảng xếp hạng (hình dưới) liệt kê các model theo chỉ số đã chọn (ROC AUC). Trong số hàng chục thuật toán, AutoAI đã chọn hai thuật toán, logistic regression và random forest, đồng thời tạo ra bốn model cho mỗi thuật toán. Trong số bốn model đều sử dụng thuật toán logistic regression, pipeline P2 bao gồm một bước tối ưu hóa hyperparameter, khác biệt với P1. Quy trình P3 bao gồm bước kỹ thuật tính năng và P4 bao gồm bước HPO thứ hai

IBM gọi mô hình hoạt động mới này là “Cộng tác giữa con người và AI”, trong đó con người và các hệ thống AI làm việc như đối tác trong đó mỗi bên đóng góp năng lực bổ sung lẫn nhau. 

Tham khảo : https://developer.ibm.com/articles/autoai-humans-and-machines-better-together/

admin

admin