Data Analytics, Kiến thức chung

Dimensional Modeling: Phương Pháp Thiết Kế Kho Dữ Liệu Hiệu Quả Và Linh Hoạt

Cập nhật gần nhất: 28/02/2025

Ngày đăng bài: 28/02/2025

Dimensional modeling là một phương pháp thiết kế cấu trúc dữ liệu trong Data Warehouse nhằm tối ưu hóa quá trình phân tích dữ liệu và hỗ trợ doanh nghiệp ra quyết định hiệu quả. Bài viết này sẽ giúp bạn hiểu rõ cách xây dựng một mô hình dimensional tối ưu, từ xác định yêu cầu kinh doanh đến thiết kế thực tiễn.

1. Hiểu Rõ Yêu Cầu Kinh Doanh

Trước khi xây dựng một mô hình dimensional, điều quan trọng nhất là hiểu rõ các quy trình kinh doanh của tổ chức và những câu hỏi phân tích cần giải quyết. Chúng ta thu thập thông tin từ các bộ phận kinh doanh qua các buổi workshop, nhấn mạnh vào KPI, vấn đề nhức nhối, và nhu cầu quyết định.

Ví dụ:

Một công ty bán lẻ muốn phân tích doanh số bán hàng, xu hướng theo thời gian và hiệu suất của từng cửa hàng. Họ cần hiểu rõ những yếu tố nào ảnh hưởng đến doanh số, từ đó tối ưu hóa hoạt động kinh doanh.

Ngoài ra, các doanh nghiệp trong ngành dịch vụ như khách sạn hoặc logistics cũng có nhu cầu phân tích tốc độ sử dụng, độ chậm giao hàng và mức độ hài lòng khách hàng.

2. Xác Định Quy Trình Kinh Doanh

Quy trình kinh doanh là hoạt động tạo ra các sự kiện để đo lường. Trong ví dụ trên, quy trình kinh doanh là giao dịch bán hàng. Ngoài ra, các quy trình kinh doanh khác như quản lý kho hàng, theo dõi khách hàng hoặc quản lý chiến dịch quảng cáo cũng là những ví dụ phổ biến.

Các bước xác định quy trình kinh doanh:

Thu thập thông tin về các hoạt động quan trọng
Xác định rõ ràng mục tiêu phân tích cho từng quy trình
Ghi chú lại các quy trình đã được thảo luận trong workshop

Ví dụ, nếu doanh nghiệp muốn cải thiện quy trình chăm sóc khách hàng, họ có thể tập trung vào việc theo dõi thời gian phản hồi, số lượng yêu cầu được giải quyết và đánh giá của khách hàng. Điều này giúp họ xác định các điểm yếu và cải thiện dịch vụ nhanh chóng

Ngoài ra, trong ngành sản xuất, các quy trình như quản lý nguyên vật liệu, kiểm soát chất lượng và lịch trình sản xuất đều là những quy trình kinh doanh quan trọng cần được phân tích để cải thiện hiệu quả hoạt động

3. Xác Định Grain

Grain quy định mỗi dòng trong fact table đại diện cho điều gì. Quy tắc chung là grain phải rõ ràng trước khi chọn dimensions và facts

Mối quan hệ trong hình trên có nghĩa là mỗi dòng trong bảng Fact Orders tương ứng với một dòng trong đơn hàng
Một đơn hàng có thể chứa nhiều sản phẩm khác nhau
Mỗi sản phẩm trong đơn hàng sẽ có một dòng riêng trong bảng Fact
Không phải mỗi đơn hàng có một dòng, mà mỗi sản phẩm trong đơn hàng có một dòng

Ví dụ minh họa:

Vì đơn hàng 1001 có 3 sản phẩm, nên trong bảng Fact sẽ có 3 dòng dữ liệu, mỗi dòng đại diện cho một sản phẩm.

Grain rõ ràng giúp tránh việc nhầm lẫn dữ liệu khi phân tích và đảm bảo rằng mọi fact và dimension được kết nối chính xác với nhau. Điều này cũng tối ưu hóa hiệu suất truy vấn khi hệ thống kho dữ liệu lớn dần

4. Xác Định Dimensions (Bảng Chiều)

Dimensions cung cấp bối cảnh mô tả cho facts. Chúng là các bảng chứa thông tin như “ai”, “cái gì”, “khi nào”,…

Ví dụ dimensions:

dim_store: Thông tin cửa hàng
dim_date: Thông tin ngày tháng
dim_product: Thông tin sản phẩm

Dimensions không chỉ giúp phân loại dữ liệu mà còn là nền tảng để tạo các slicer và filters trong báo cáo BI. Các báo cáo dựa trên dimensions cho phép người dùng khám phá dữ liệu theo nhiều góc nhìn khác nhau. Ví dụ, với dim_date, người dùng có thể phân tích doanh số theo ngày, tháng hoặc quý để xác định xu hướng kinh doanh theo thời gian

5. Xác Định Facts (Sự Kiện Đo Lường)

Facts là các phép đo lường định lượng, thường là số liệu số

Ví dụ facts:

Doanh số bán hàng
Số lượng sản phẩm bán ra
Lợi nhuận từ mỗi giao dịch

Facts nên được thiết kế sao cho dễ dàng sử dụng để tính toán các chỉ số hiệu suất quan trọng (KPI) như doanh thu trung bình, tổng số lượng bán ra và tỷ suất lợi nhuận. Trong lĩnh vực tài chính, facts có thể bao gồm lãi suất, giá trị giao dịch, hoặc chi phí phát sinh, giúp doanh nghiệp phân tích tình hình tài chính một cách chi tiết

Ngoài ra, các ngành như thương mại điện tử có thể sử dụng fact table để theo dõi hành vi khách hàng, từ số lượt xem sản phẩm, số lần thêm vào giỏ hàng cho đến số lượng giao dịch thành công

6. Sử Dụng Star Schema

Star schema là cách tổ chức fact table nối với dimensions bằng khoá ngoại. Sơ đồ sao tinh giản giúp quản lý dữ liệu linh hoạt và hiệu quả

Sơ đồ sao Star Schema cho phép truy vấn dữ liệu nhanh chóng và dễ hiểu hơn so với các cấu trúc phức tạp như snowflake schema. Với mô hình này, người dùng có thể tạo ra các dashboard tương tác, dễ dàng theo dõi hiệu suất và ra quyết định..

7. Quản Lý Thay Đổi (Slowly Changing Dimensions – SCD)

SCD quản lý thay đổi trong dimension theo các kiểu như Type 1 (ghi đè), Type 2 (tạo hàng mới), Type 3 (thêm thuộc tính mới).

Giả sử chúng ta có một công ty viễn thông lưu trữ thông tin khách hàng trong bảng dim_customer. Một khách hàng có thể thay đổi địa chỉ hoặc gói cước viễn thông. Chúng ta sẽ xem cách mỗi loại SCD xử lý sự thay đổi này.

7.1 SCD Type 1

Cách hoạt động:

Dữ liệu cũ bị ghi đè, không giữ lại lịch sử.
Thích hợp khi không cần theo dõi thay đổi lịch sử, chỉ cần dữ liệu mới nhất.

Ví dụ:

Khách hàng Nguyễn Văn A có địa chỉ ban đầu là Hà Nội, nhưng sau đó chuyển đến Hồ Chí Minh.

Sau khi cập nhật SCD Type 1:

Nhược điểm: Không thể biết khách hàng từng ở đâu trước đây

Khi nào dùng? Khi thông tin cũ không quan trọng, ví dụ như email, số điện thoại (chỉ cần giữ dữ liệu mới nhất)

7.2. SCD Type 2

Cách hoạt động:

Tạo một dòng mới khi có thay đổi
Giữ lịch sử bằng cách thêm cột ngày bắt đầu (start_date) và ngày kết thúc (end_date)

Ví dụ:

Khách hàng Nguyễn Văn A chuyển địa chỉ từ Hà Nội sang Hồ Chí Minh, hệ thống lưu lại cả hai địa chỉ.

Ưu điểm: Có thể phân tích lịch sử thay đổi. Ví dụ: Khách hàng sống ở Hà Nội bao lâu trước khi chuyển đi?

Khi nào dùng? Khi cần theo dõi lịch sử thay đổi, như giá sản phẩm, địa chỉ khách hàng, mức lương nhân viên.

Kết hợp SCD Type 1 và Type 2 để Quản Lý Thay Đổi

Trong nhiều tình huống, chúng ta cần theo dõi một phần lịch sử của dữ liệu trong khi vẫn duy trì tính đơn giản của hệ thống. Một cách để đạt được điều này là kết hợp sử dụng SCD Type 1 và SCD Type 2.

SCD Type 1: Được sử dụng để ghi đè các giá trị cũ với giá trị mới mà không lưu lại lịch sử. Đây là lựa chọn lý tưởng khi chỉ cần dữ liệu hiện tại và không cần theo dõi sự thay đổi trước đây. Ví dụ: Số điện thoại, email – những thông tin mà chỉ cần giữ lại dữ liệu mới nhất mà không cần ghi nhận lịch sử.
SCD Type 2: Được sử dụng khi cần lưu lại lịch sử thay đổi của dữ liệu. Mỗi lần dữ liệu thay đổi, một dòng mới sẽ được tạo với thông tin ngày bắt đầu và ngày kết thúc, giúp chúng ta theo dõi sự thay đổi theo thời gian. Ví dụ: Địa chỉ, gói cước của khách hàng – những thông tin mà việc theo dõi lịch sử thay đổi là quan trọng.

Ví dụ:

Giả sử chúng ta có một bảng dim_customer để lưu trữ thông tin khách hàng, trong đó bao gồm các thông tin như địa chỉ, gói cước, email và số điện thoại. Trong trường hợp này:

Thông tin email và số điện thoại có thể sử dụng SCD Type 1 vì chúng ta chỉ cần lưu lại dữ liệu mới nhất của khách hàng. Khi có sự thay đổi (ví dụ khách hàng thay đổi số điện thoại), chúng ta chỉ cần cập nhật lại giá trị mới mà không cần lưu lại thông tin trước đó.
Thông tin địa chỉ và gói cước có thể sử dụng SCD Type 2 vì chúng ta cần theo dõi lịch sử thay đổi của những thông tin này. Mỗi khi khách hàng thay đổi địa chỉ hoặc gói cước, hệ thống sẽ tạo ra một bản ghi mới với cột start_date và end_date để lưu lại khoảng thời gian khách hàng sử dụng địa chỉ hoặc gói cước đó.

Kết quả

Dữ liệu ban đầu: Khách hàng Nguyễn Văn A có địa chỉ là Hà Nội và sử dụng gói cước Premium.
Khi khách hàng chuyển đến Hồ Chí Minh:
- Địa chỉ mới và gói cước sẽ được lưu với SCD Type 2, giữ lại thông tin lịch sử với ngày bắt đầu và ngày kết thúc.
- Số điện thoại và email sẽ được cập nhật với SCD Type 1, ghi đè thông tin cũ mà không lưu lại lịch sử.

Lợi ích

Giữ cho hệ thống đơn giản: Việc chỉ ghi đè thông tin không quan trọng (SCD Type 1) giúp tránh làm phức tạp thêm cơ sở dữ liệu.
Theo dõi lịch sử khi cần thiết: Sử dụng SCD Type 2 để lưu lại các thay đổi quan trọng giúp bạn có thể phân tích và theo dõi các thay đổi theo thời gian, đồng thời vẫn duy trì tính toàn vẹn của dữ liệu lịch sử.

7.3. SCD Type 3

Cách hoạt động:

Thêm cột mới để lưu trữ giá trị cũ.
Chỉ theo dõi một lần thay đổi gần nhất, không lưu tất cả lịch sử như Type 2.

Ví dụ:

Khách hàng Nguyễn Văn A thay đổi gói cước từ Standard sang Premium.

Giải thích:

Lưu gói cước hiện tại (current_plan) và gói trước đó (previous_plan)
Khi khách hàng đổi gói lần nữa, previous_plan sẽ bị thay thế

Ưu điểm: Dễ truy vấn, không tạo nhiều dòng

Nhược điểm: Chỉ theo dõi một lần thay đổi gần nhất, nếu khách hàng đổi nhiều lần thì mất lịch sử cũ

Khi nào dùng?: Khi chỉ cần lưu trữ lần thay đổi gần nhất, ví dụ như hạng thành viên VIP, trạng thái khách hàng (tiềm năng → chính thức)

8. Kỹ Thuật Fact Table Nâng Cao (Advanced Fact Table Techniques)

Khi làm việc với dữ liệu phức tạp, các kỹ thuật nâng cao cho fact table rất cần thiết để tối ưu hóa việc phân tích:

8.1. Lagging và Leading Metrics

Các chỉ số so sánh dữ liệu hiện tại với dữ liệu trước đó hoặc sau đó, giúp xác định xu hướng hoặc biến động bất thường

Dữ liệu doanh số theo ngày, với cột previous_day_sales và next_day_sales để so sánh doanh thu hôm nay với hôm trước và hôm sau
Giúp phân tích xu hướng tăng/giảm doanh thu

8.2. Fact Table Granularity

Tạo nhiều fact table với các mức độ chi tiết khác nhau để phục vụ các loại phân tích khác nhau. Ví dụ, gồm hai bảng:

Chi tiết giao dịch (fact_granularity_detail): Ghi lại từng giao dịch tại từng cửa hàng.

Tổng hợp doanh số (fact_granularity_summary): Tổng doanh số theo ngày

=> Giúp tối ưu hiệu suất truy vấn, tùy thuộc vào mức độ chi tiết cần thiết

8.3. Degenerate Dimensions:

Lưu trữ các thuộc tính không cần một bảng dimension riêng, chẳng hạn như số hóa đơn hoặc số đơn hàng

Không tạo bảng dim_invoice, mà lưu trực tiếp số hóa đơn (invoice_number) trong Fact Table.
Phù hợp khi thông tin hóa đơn chỉ dùng để tham chiếu, không có thuộc tính bổ sung.

9. Best Practices Trong Dimensional Modeling

Tối ưu hoá truy vấn: Sử dụng aggregate tables để giảm thời gian query
Quản lý khoá ngoại: Tránh null keys bằng cách tạo default rows
Kiểm tra dữ liệu: Thiết lập audit dimensions để theo dõi chất lượng dữ liệu
Giữ consistency: Đảm bảo mọi dimensions và facts tuân thủ grain đã xác định
Tài liệu hoá kỹ lưỡng: Lưu trữ chi tiết về các quyết định thiết kế để dễ dàng bảo trì và mở rộng

10. Kết Luận

Xây dựng mô hình dimensional modeling đòi hỏi sự hiểu biết rõ ràng về quy trình kinh doanh và thực tế dữ liệu. Khi được thiết kế và triển khai đúng cách, dimensional modeling giúp doanh nghiệp tối đa hoá quyết định dựa trên dữ liệu một cách nhanh chóng và hiệu quả.

Hơn nữa, việc áp dụng các best practices sẽ giúp doanh nghiệp giảm thiểu lỗi và tối ưu hoá hiệu suất trong quá trình phân tích. Điều này mang lại lợi thế cạnh tranh bền vững, đặc biệt trong môi trường kinh doanh cạnh tranh cao ngày nay. Ngoài ra, mô hình này còn giúp các tổ chức dễ dàng thích nghi với sự thay đổi, đảm bảo rằng họ luôn sẵn sàng đối mặt với những thách thức và cơ hội mới trong tương lai.

Công ty Cổ phần KPIM