Môi trường Power BI cung cấp cho chúng ta khả năng làm việc với các tập dữ liệu lớn và phức tạp từ nhiều nguồn khác nhau. Tuy nhiên, đôi khi chúng ta cần giản lược dữ liệu để tăng tốc độ phân tích và đảm bảo hiệu suất tối ưu của báo cáo và bảng điều khiển. Trong bài viết này, KPIM sẽ khám phá 8 phương pháp giản lược dữ liệu trong Power BI, giúp chúng ta làm việc hiệu quả và nhanh chóng với dữ liệu lớn.

Theo đó, 8 phương pháp chính dùng để điều chỉnh giản lược dữ liệu trong Power BI sẽ bao gồm:

  • Loại bỏ cột không cần thiết
  • Loại bỏ các hàng không cần thiết
  • Tạo thành nhóm và tóm tắt
  • Tối ưu hóa các kiểu dữ liệu cột
  • Tùy chỉnh cho các cột
  • Dừng tải truy vấn Power Query
  • Dừng cập nhật ngày / giờ tự động
  • Chuyển sang chế độ Mixed

Loại bỏ cột không cần thiết

Cột bảng thực hiện 2 mục đích chính đó là:

  • Báo cáo: các cột bổ giúp đạt được các thiết kế báo cáo phù hợp với bộ lọc, nhóm và tóm tắt dữ liệu model.
  • Định hình cấu trúc model qua sự hỗ trợ các relationships, các phép tính, vai trò bảo mật và thậm chí cả định dạng màu dữ liệu.

Những cột nào không có vai trò trên cũng sẽ bị loại bỏ. Hoạt động này còn được gọi là lọc dọc (vertical filtering). Bạn nên thiết kế với chính xác số cột phù hợp dựa trên các yêu cầu báo cáo đề ra. Các yêu cầu của bạn có thể thay đổi theo thời gian, nhưng lưu ý rằng việc thêm cột sau này sẽ dễ dàng hơn là xóa chúng vì khi bạn bỏ các cột sau khi hoàn thành báo cáo thì nó có thể sẽ phá vỡ báo cáo hoặc cấu trúc model của bạn.

Loại bỏ hàng không cần thiết

Các bảng nên được tải với càng ít hàng càng tốt vì thông qua các tập hợp hàng đã lọc vào các bảng mô hình vì có hai lý do sau: lọc theo thực thể hoặc theo thời gian.

Loại bỏ hàng được gọi là lọc ngang. Giản lược dữ liệu giúp hệ thống hoạt động trơn tru và ít xảy ra lỗi. Giản lược dữ liệu giúp hệ thống hoạt động trơn chu và ít xảy ra lỗi. Giản lược dữ liệu giúp hệ thống hoạt động trơn chu và ít xảy ra lỗi.

Lọc theo thực thể

Bao gồm việc tải một tập hợp con dữ liệu nguồn vào model.

Ví dụ: thay vì tải dữ kiện bán hàng cho tất cả các khu vực bán hàng thì ta chỉ cần tải dữ liệu cho một khu vực. Cách tiếp cận thiết kế này sẽ tạo ra nhiều model nhỏ hơn.

Ngoài ra, bộ lọc này loại bỏ xác định bảo mật row-level security nhưng sẽ yêu cầu cấp quyền cho tập dữ liệu cụ thể trong Power BI Service và tạo báo cáo "trùng lặp" kết nối với từng tập dữ liệu.

Bạn có thể tận dụng việc sử dụng các tham số Power Query và các mẫu template trên Power BI để đơn giản hóa việc quản lý và xuất báo cáo. Để biết thêm thông tin, hãy đọc bài viết Deep Dive into Query Parameters and Power BI Templates của Microsoft.

Lọc theo thời gian

Liên quan đến việc giới hạn lịch sử dữ liệu được tải vào các bảng dữ kiện fact table và giới hạn các hàng về date được tải vào bảng date. Bạn không nên tự động tải tất cả lịch sử có sẵn, trừ khi đó là một yêu cầu báo cáo đã cho.

Chúng ta sẽ thấy rất hữu ích nếu biết bộ lọc Power Query dựa trên thời gian có thể được tham số hóa và thậm chí được đặt để sử dụng khoảng thời gian tương đối (liên quan đến làm mới date, ví dụ: trong thời gian 5 năm qua). Ngoài ra, các thay đổi đối với bộ lọc thời gian sẽ không ảnh hưởng đến mô hình các báo cáo mà nó sẽ chỉ dẫn đến ít hơn (hoặc nhiều hơn) lịch sử dữ liệu có sẵn trong báo cáo.

Đây là phương pháp hiệu quả nhất để giảm kích thước model đó là tải dữ liệu tóm tắt trước. Phương pháp này có thể được sử dụng để nâng cao tổng thể của các bảng fact table. Tuy nhiên, phương pháp này có thể dẫn đến mất các thông tin chi tiết trong bảng dữ liệu.

Ví dụ: bảng thông tin bán hàng sẽ hiển thị mỗi hàng tương ứng với một đơn order.

  • Ta có thể giảm dữ liệu đáng kể bằng cách tổng hợp tất cả các chỉ số bán hàng, phân nhóm theo ngày, khách hàng và sản phẩm. Sau đó bạn có thể tiếp tục giảm dữ liệu đáng kể hơn bằng cách nhóm theo ngày ở cấp tháng.
  • Nó có thể giúp giảm kích thước model lên đến 99%, nhưng báo cáo ở cấp độ ngày hoặc cấp độ đơn đặt hàng riêng lẻ sẽ không còn khả thi nữa.

Quyết định tóm tắt dữ liệu fact table luôn liên quan đến mức độ nhất định và còn có thể dùng phương thức thiết kế mô hình Mixed để thực hiện thao tác tóm tắt dữ liệu.

Tối ưu hoá dạng cột dữ liệu

Công cụ lưu trữ VertiPaq sử dụng cấu trúc dữ liệu riêng biệt cho mỗi cột. Các cấu trúc dữ liệu này được tối ưu hóa cao nhất cho dữ liệu cột về giá trị số như là sử dụng mã hóa giá trị.

Tuy nhiên, một số dữ liệu cột định dạng văn bản (text) không phải là giá trị số nên nó yêu cầu công cụ lưu trữ chỉ định một số nhận dạng cho mỗi giá trị văn bản duy nhất có trong cột. Sau đó, quá trình này sẽ lưu các giá trị số trong cấu trúc dữ liệu và sử dụng cho các yêu cầu tra cứu hàm trong quá trình lưu trữ và truy vấn.

Trong một số trường hợp cụ thể, bạn có thể chuyển đổi dữ liệu văn bản thành giá trị số. Ví dụ: số đơn đặt hàng có thể luôn được đặt trước bằng một kí tự văn bản (ví dụ: "SO123456"). Vì vậy ta có thể xoá kí tự văn bản để giá trị số đơn đặt hàng chuyển đổi thành số nguyên.

Đối với các bảng có quy mô dữ liệu lớn có thể làm giảm dữ liệu đáng kể, đặc biệt khi cột chứa các giá trị số lượng đặc biệt. Trong ví dụ này, chúng tôi khuyên bạn nên cài đặt Default Summarization của cột thành "Do Not Summarize" - nó sẽ hạn chế việc tóm tắt không phù hợp các giá trị số đơn hàng.

Tuỳ chỉnh các cột

Công cụ VertiPaq lưu trữ các cột được tính toán trong hàm DAX giống như Power Query của các cột ban đầu thông thường. Tuy nhiên, cấu trúc dữ liệu được lưu trữ hơi khác và thường đạt được độ nén kém hiệu quả hơn.

Ngoài ra, chúng được tạo sau khi tất cả các bảng Power Query được tải, điều này có thể kéo dài thời gian làm mới dữ liệu. Do đó, việc thêm các cột trong bảng dưới dạng các cột đã thực hiện tính toán sẽ kém hiệu quả hơn các cột được tính toán trong Power Query trong ngôn ngữ M.

Tạo các cột tùy chỉnh trong Power Query là khi các nguồn là cơ sở dữ liệu thì sẽ đạt hiệu quả tải cao hơn theo hai cách. Các phép tính được xác định trong câu lệnh SQL (sử dụng ngôn ngữ truy vấn gốc từ nguồn cung cấp) hoặc nó có thể được thực hiện dưới dạng một cột trong nguồn dữ liệu.

Ngừng truyền tải truy vấn Power Query

Truy vấn Power Query hỗ trợ tích hợp dữ liệu với các truy vấn khác vào trong báo cáo. Khi muốn tránh tải truy vấn (có thể sử dụng ở Power Query nhưng không tải vào Power BI) thì hãy đảm bảo rằng bạn đã tắt tải query trong một số trường hợp nhất định.

Ngừng truyền tải truy vấn Power Query
Ngừng truyền tải truy vấn Power Query

Ngừng cập nhật tự động ngày/thời gian

Power BI Desktop bao gồm một tùy chọn như cập nhật Ngày / Giờ tự động (Auto Date / Time). Khi chức năng này được bật, nó sẽ tạo bảng ngày / giờ tự động ẩn cho các cột date để hỗ trợ người làm báo cáo khi định hình bộ lọc, tạo nhóm và xem chi tiết các khoảng thời gian trên lịch. Các bảng ẩn trên thực tế là các bảng được tính toán sẽ làm tăng kích thước của báo cáo.

Để biết hướng dẫn về cách sử dụng tùy chọn này, hãy tham khảo bài viết Auto Date/Time guidance in Power BI Desktop.

Chuyển sang chế độ Mixed

Trong Power BI Desktop, chế độ Mixed tạo ra một Composite model. Thực ra nó cho phép bạn lưu giữ dữ liệu cho mỗi bảng. Vì thế, mỗi bảng sẽ có chế độ Storage như Import hoặc DirectQuery. Giản lược dữ liệu giúp hệ thống hoạt động trơn chu và ít xảy ra lỗi. Giản lược dữ liệu giúp hệ thống hoạt động trơn chu và ít xảy ra lỗi.

Một thủ thuật hiệu quả để giảm kích thước model là cài đặt ở Chế độ lưu trữ (Storage Mode) cho các bảng fact table lớn hơn thành DirectQuery. Lưu ý khi tiếp cận thiết kế này thì nó có thể hoạt động tốt khi kết hợp với phương pháp Tạo thành nhóm hoặc tóm tắt được giới thiệu trước đó.

Ví dụ: dữ liệu bán hàng tóm tắt có thể được sử dụng để cho ra 1 bản báo cáo "tóm tắt" chất lượng. Nhưng một trang xem chi tiết có thể hiển thị doanh số bán hàng đầy đủ thông qua bộ lọc cụ thể, hiển thị tất cả các đơn hàng bán hàng theo từng mục tiêu. Trong ví dụ này, trang xem chi tiết sẽ bao gồm hình ảnh dựa trên bảng DirectQuery để truy xuất dữ liệu đơn đặt hàng bán hàng.

Lợi ích của phương pháp giản lược dữ liệu trong Power BI

  • Tăng tốc độ phân tích: Giảm thiểu lượng dữ liệu cần xử lý giúp tăng tốc độ truy vấn và hiển thị báo cáo. Việc chỉ tải và xử lý dữ liệu cần thiết giúp người dùng truy cập thông tin nhanh chóng và tăng cường trải nghiệm người dùng.
  • Cải thiện hiệu suất: Bằng cách giản lược dữ liệu, Power BI hoạt động mượt mà hơn và đáp ứng tốt hơn với tác vụ phân tích và trực quan hóa dữ liệu. Hiệu suất tốt hơn giúp người dùng tăng năng suất làm việc và tiết kiệm thời gian.
  • Tiết kiệm tài nguyên hệ thống: Bằng cách chỉ tải xuống dữ liệu cần thiết, ta giảm thiểu tải trọng trên hệ thống và tài nguyên máy tính. Điều này đồng nghĩa với việc giảm tiêu thụ bộ nhớ và CPU, làm cho quá trình làm việc trên Power BI trở nên hiệu quả hơn và giúp tiết kiệm chi phí hạ tầng.
  • Tăng khả năng tương tác: Bằng cách chỉ hiển thị dữ liệu cần thiết trong các biểu đồ và báo cáo, ta tăng khả năng tương tác với dữ liệu. Người dùng có thể nhanh chóng thay đổi bộ lọc, tìm kiếm thông tin và khám phá các mẫu dữ liệu một cách dễ dàng.
  • Quản lý dữ liệu hiệu quả: Giản lược dữ liệu giúp ta tập trung vào những phần quan trọng nhất của dữ liệu. Ta có thể loại bỏ các cột không cần thiết, chỉ tải xuống dữ liệu cần thiết và áp dụng các bộ lọc để tập trung vào việc phân tích và trực quan hóa thông tin quan trọng.

Kết luận

Trên đây là những phương pháp giản lược dữ liệu trong Power BI mà chúng ta có thể áp dụng để tối ưu hiệu suất và tăng tốc độ phân tích. Việc giản lược dữ liệu không chỉ giúp ta tiết kiệm tài nguyên hệ thống mà còn cải thiện trải nghiệm người dùng và đảm bảo tính nhất quán của dữ liệu.

Khi làm việc với Power BI, hãy luôn xem xét các phương pháp giản lược dữ liệu phù hợp với dự án và yêu cầu của bạn. Điều này sẽ giúp bạn tận dụng toàn bộ tiềm năng của công cụ này và tạo ra các báo cáo và bảng điều khiển mạnh mẽ, linh hoạt và có hiệu suất cao.

Hy vọng rằng thông qua bài viết này của KPIM, bạn đã có cái nhìn tổng quan về các phương pháp giản lược dữ liệu trong Power BI và nhận ra sự quan trọng của việc áp dụng chúng trong quá trình làm việc. Chúc bạn thành công trong việc tối ưu hóa dữ liệu và đạt được kết quả tốt nhất trong việc phân tích dữ liệu với Power BI.