Làm Sạch Dữ Liệu Là Gì?

Làm sạch dữ liệu (Data Cleaning) là bước quan trọng trong khoa học dữ liệu, giúp loại bỏ lỗi, xử lý thiếu sót và chuẩn hóa dữ liệu thô. Quy trình này đảm bảo dữ liệu đạt chất lượng cao, phục vụ hiệu quả cho các phân tích và dự báo.

Trong kỷ nguyên chuyển đổi số, dữ liệu sạch là nền tảng để doanh nghiệp đưa ra quyết định chính xác, tối ưu hóa hiệu suất và tránh sai lầm chiến lược. Ví dụ, một lỗi nhỏ như trùng lặp dữ liệu bán hàng có thể làm sai lệch kết quả dự báo doanh thu, ảnh hưởng đến kế hoạch kinh doanh.

Ngoài ra, làm sạch dữ liệu giúp tiết kiệm thời gian, giảm tải cho nhà phân tích và nâng cao độ tin cậy từ các bên liên quan. Với dữ liệu sạch, doanh nghiệp không chỉ phân tích chính xác mà còn xây dựng niềm tin vào các kết quả đưa ra.

Tầm quan trọng của việc làm sạch dữ liệu?

Làm sạch dữ liệu không chỉ là bước chuẩn bị cho phân tích mà còn đóng vai trò cốt lõi trong việc tối ưu hóa chiến lược và nâng cao hiệu suất tổ chức. Dưới đây là những lý do chính:

  • Nâng cao độ chính xác và độ tin cậy: Dữ liệu sạch đảm bảo nền tảng cho các phân tích và dự báo chính xác, giúp các tổ chức đưa ra quyết định chiến lược hiệu quả và giảm thiểu rủi ro.
  • Tăng cường ra quyết định chiến lược: Dữ liệu đồng nhất và chính xác hỗ trợ lập kế hoạch dài hạn, tối ưu hóa tài nguyên và điều chỉnh chiến lược kinh doanh, mang lại lợi thế cạnh tranh.
  • Cải thiện trải nghiệm khách hàng: Dữ liệu sạch cho phép cá nhân hóa dịch vụ và sản phẩm, từ đó tăng cường sự hài lòng và lòng trung thành của khách hàng.
  • Đảm bảo tuân thủ và bảo mật: Dữ liệu sạch giảm rủi ro vi phạm pháp lý và bảo mật, đặc biệt quan trọng trong các ngành yêu cầu tiêu chuẩn nghiêm ngặt như tài chính và y tế.
  • Hỗ trợ tích hợp công nghệ mới: Các hệ thống như AI, học máy và IoT yêu cầu dữ liệu sạch để hoạt động hiệu quả, làm sạch dữ liệu giúp đảm bảo triển khai công nghệ mượt mà.

Một số lỗi dữ liệu thường gặp và cách xử lý với Power Query

Lỗi dữ liệu có thể làm giảm chất lượng của phân tích và ảnh hưởng trực tiếp đến tính chính xác của các quyết định chiến lược. Dưới đây là một số lỗi dữ liệu phổ biến thường gặp trong quá trình làm sạch dữ liệu:

Thiếu dữ liệu (Missing Data)

Định nghĩa

Null values trong Power BI đề cập đến dữ liệu bị thiếu hoặc không xác định trong tập dữ liệu. Các giá trị này có thể xuất hiện do nhiều nguyên nhân, chẳng hạn như lỗi nhập liệu hoặc dữ liệu không đầy đủ, và chúng có thể ảnh hưởng tiêu cực đến phân tích dữ liệu cũng như trực quan hóa, dẫn đến những hiểu biết không chính xác. Bằng cách loại bỏ null values, các nhà phân tích có thể đảm bảo độ chính xác của dữ liệu, tăng cường tính toàn vẹn của dữ liệu và hỗ trợ đưa ra quyết định tốt hơn.

Cách xác định lỗi dữ liệu

Để xác định null values trong Power BI, chúng ta dùng Power Query Editor với các bước như sau:

Vào tab Home > Chọn Transform Data để mở Power Query Editor. Trong Power Query:

Trong Power BI, phía dưới mỗi cột sẽ hiển thị Column Distribution, cho phép bạn dễ dàng quan sát tình trạng dữ liệu. Qua đó, chúng ta nhận thấy hai cột DateTransaction_Code có giá trị rỗng (Empty/null):

  • Date: chứa 1% giá trị null.
  • Transaction_Code: chứa 10% giá trị null.

Chọn giá trị null.

Kết quả trả về.

Cách xử lý

Một số cách phổ biến để xử lý Null Values hiệu quả:

  • Loại bỏ bản ghi chứa giá trị null:
    • Áp dụng khi giá trị null chiếm tỷ lệ nhỏ và không ảnh hưởng đáng kể đến tập dữ liệu.
  • Thay thế giá trị null:
    • Bằng các chỉ số thống kê trung tâm:
      • Mean (Trung bình): Phù hợp với dữ liệu số, đặc biệt khi phân phối dữ liệu gần chuẩn.
      • Median (Trung vị): Tốt cho dữ liệu có sự chênh lệch lớn (outliers).
      • Mode (Mode): Dùng cho dữ liệu phân loại (categorical).
    • Bằng số 0:
      • Phù hợp khi giá trị null có ý nghĩa là không tồn tại hoặc không áp dụng.
    • Bằng giá trị từ bản ghi trước hoặc sau:
      • Áp dụng với dữ liệu thời gian (time-series) hoặc khi dữ liệu có tính liên tục, nhằm duy trì xu hướng.

Quan sát cho thấy, các bản ghi liền trước và liền sau các giá trị null thường có giá trị tương tự nhau. Vì vậy, chúng ta có thể áp dụng phương pháp điền giá trị null bằng cách sử dụng giá trị từ bản ghi trước đó để đảm bảo tính nhất quán trong dữ liệu.

  • Bước 1: Chọn cột cần điền giá trị, trong trường hợp này là cột Date.
  • Bước 2: Trên thanh Ribbon, chuyển đến tab Transform.
  • Bước 3: Tìm đến nhóm công cụ Fill.
  • Bước 4: Chọn Fill > Down để điền giá trị từ bản ghi phía trên xuống các ô trống.

Tương tự như cột Date, chúng ta tiếp tục xử lý giá trị null cho cột Transaction_Code. Đây là cột thể hiện mã giao dịch, thường liên quan đến các giao dịch thẻ.

Chúng ta kiểm tra các giá trị null trong cột Transaction_Code bằng cách lọc, như đã thực hiện đối với cột Date.

Các giá trị null trong cột Transaction_CodePayment_TypeCash (tiền mặt). Vì giao dịch tiền mặt không phát sinh mã giao dịch thẻ, nên các giá trị null này đã phản ánh đúng thực tế. Do đó, không cần thực hiện thêm bất kỳ xử lý nào với các giá trị này.

Dữ liệu trùng lặp (Duplicate Data)

Định nghĩa

Dữ liệu trùng lặp (Duplicate Data) là các bản ghi lặp lại trong một tập dữ liệu, thường xuất hiện do lỗi nhập liệu, quá trình thu thập dữ liệu từ nhiều nguồn, hoặc các hệ thống không được đồng bộ. Đây là một trong những vấn đề phổ biến nhưng gây ảnh hưởng nghiêm trọng đến chất lượng dữ liệu và độ chính xác của các phân tích.

Cách xác định lỗi dữ liệu

Sử dụng Power Query Editor để phát hiện dữ liệu trùng lặp. Các bước như sau:

Vào tab Home > Chọn Transform Data để mở Power Query Editor. Trong Power Query:

Kiểm tra dữ liệu trùng lặp:

  • Bước 1: Chọn tất cả các cột trong dữ liệu mà bạn muốn kiểm tra.
  • Bước 2: Trên thanh Ribbon, chuyển đến tab Home.
  • Bước 3: Trong nhóm công cụ, tìm đến mục Keep Rows.
  • Bước 4: Chọn Keep Duplicates để chỉ giữ lại các dòng bị trùng lặp, giúp dễ dàng kiểm tra và xử lý.

Sau khi áp dụng thao tác Keep Duplicates, kết quả trả về là 556 hàng có giá trị bị trùng lặp. Đây sẽ là cơ sở để bạn tiếp tục kiểm tra và xử lý dữ liệu một cách chính xác.

Cách xử lý

Tùy thuộc vào ngữ cảnh, bạn có thể quyết định cách xử lý giá trị trùng lặp. Thông thường, các bản ghi trùng lặp sẽ được loại bỏ. Nếu các bản ghi trùng lặp không cần thiết, bạn có thể xóa trực tiếp chúng khỏi tập dữ liệu để đảm bảo tính chính xác và gọn gàng.

  • Bước 1: Chọn tất cả các cột trong bộ dữ liệu mà bạn muốn làm việc.
  • Bước 2: Trên thanh Ribbon, chọn tab Home.
  • Bước 3: Tìm và chọn mục Remove Rows.
  • Bước 4: Chọn Remove Duplicates để loại bỏ các dòng trùng lặp, giúp bạn dễ dàng kiểm tra và xử lý dữ liệu.

Lệnh này sẽ tự động loại bỏ các bản ghi trùng lặp dựa trên các cột mà bạn đã chọn.

Dữ liệu lỗi định dạng (Data Formating)

Định nghĩa

Dữ liệu lỗi định dạng (Data Formatting Errors) xảy ra khi dữ liệu không tuân thủ đúng định dạng mong muốn hoặc không phù hợp với yêu cầu của các công cụ và quy trình phân tích. Ví dụ, ngày tháng được nhập dưới nhiều định dạng khác nhau, số liệu sử dụng sai ký hiệu thập phân (dấu phẩy thay vì dấu chấm), hoặc chuỗi văn bản chứa các ký tự không mong muốn.

Cách xác định lỗi dữ liệu

Mở Power Query Editor. Trong Power Query:

  • Bước 1: Chọn cột mà bạn nghi ngờ có vấn đề về kiểu dữ liệu.
  • Bước 2: Kiểm tra kiểu dữ liệu của cột bằng cách quan sát biểu tượng bên cạnh tên cột. Một số kiểu dữ liệu phổ biến bao gồm:
    • Text: Biểu tượng chữ “Abc”.
    • Whole Number: Biểu tượng số nguyên.
    • Decimal Number: Biểu tượng số có dấu chấm thập phân.
    • Date: Biểu tượng lịch.
    • Time: Biểu tượng đồng hồ.
    • Boolean: Biểu tượng hộp vuông với giá trị “True” hoặc “False”.
    • Currency: Biểu tượng tiền tệ.

Cột Amount sẽ được sử dụng để tính toán doanh thu. Định dạng phù hợp cho cột này phải là Decimal Number. Tuy nhiên, hiện tại cột này đang có kiểu dữ liệu là Text, vì vậy chúng ta cần chuyển đổi về định dạng chính xác để phục vụ cho các phép tính sau này.

Cách xử lý

Chúng ta có thể kiểm tra các giá trị có trong cột bằng cách mở bộ lọc cột. Để làm điều này, hãy chọn biểu tượng lọc ở đầu cột.

Vấn đề ở đây là khi nhập liệu, người dùng đã nhập cả đơn vị tiền tệ dưới dạng văn bản, khiến Power BI nhận diện cột này là cột có kiểu dữ liệu Text. Vì vậy, chúng ta cần loại bỏ các đơn vị tiền tệ này bằng cách sử dụng chức năng Replace Values trong phần Transform.

Sau khi đã loại bỏ các đơn vị tiền tệ, chúng ta chỉ cần chuyển đổi kiểu dữ liệu của cột về dạng Decimal Number. Để thực hiện, hãy chọn biểu tượng bên cạnh tên cột và sau đó chọn Decimal Number.

Dữ liệu đã được chuyển sang dạng Decimal Number, điều này có thể được xác nhận bởi biểu tượng bên cạnh tên cột đã chuyển thành biểu tượng của Decimal Number. Ngoài ra, các giá trị trong cột cũng đã được căn chỉnh về phía bên phải của cột. (Lưu ý: Dữ liệu kiểu Text sẽ được căn chỉnh bên trái, trong khi Number sẽ được căn chỉnh bên phải).

Dữ liệu không đồng nhất (Inconsistent Data)

Định nghĩa

Dữ liệu không đồng nhất (Inconsistent Data) là khi cùng một loại thông tin được biểu diễn hoặc ghi nhận theo nhiều cách khác nhau trong một tập dữ liệu. Ví dụ:

  • Tên sản phẩm: Một sản phẩm được ghi là “iPhone 15” ở một nơi, nhưng ở nơi khác lại là “Iphone 15”, “iPhone-15” hoặc “IPHONE 15”.
  • Đơn vị đo lường: Trọng lượng có thể được ghi là “kg”, “kilogram”, hoặc “kgs”.

Dữ liệu không đồng nhất thường xuất hiện khi thu thập dữ liệu từ nhiều nguồn, hệ thống, hoặc do lỗi nhập liệu thủ công.

Cách xác định lỗi dữ liệu

Mở Power Query Editor. Trong Power Query:

  • Bước 1: Sử dụng Filter để lọc dữ liệu.
  • Bước 2: Kiểm tra các giá trị trong cột để xác định những giá trị không đồng nhất.
    • Trong trường hợp này, chúng ta phát hiện hai cặp giá trị không đồng nhất: Cappu và Cappuccino, cùng với Coca và Cocoa.

Cách xử lý

Chúng ta có thể chuẩn hóa các giá trị tương đương bằng cách sử dụng chức năng Tìm và Thay Thế (Replace Values) trong Power BI. Để thực hiện, hãy mở Power Query Editor. Trong Power Query Editor, bạn có thể:

  • Bước 1: Chọn cột cần thay thế giá trị.
  • Bước 2: Vào tab Transform trên thanh Ribbon.
  • Bước 3 và Bước 4: Chọn Replace Values trong phần Any Column. Hoặc bạn có thể nhấp chuột phải vào tên cột và chọn Replace Values từ menu ngữ cảnh.

Sau khi chọn Replace Values, một hộp thoại sẽ mở ra yêu cầu bạn nhập Value To Find (Giá trị cần tìm) và Replace With (Giá trị thay thế).

  • Value To Find: Cappu
  • Replace With: Cappuccino

Tương tự với:

  • Value To Find: Coca
  • Replace With: Cocoa

Sau khi nhập các giá trị cần thay thế và giá trị thay thế, nhấn OK để áp dụng thay đổi.