Trong bài viết trước của series Data Science at Scale with Microsoft Fabric của team EDP, chúng ta đã tìm hiểu về các tính năng cơ bản của Notebook. Tại đây, bạn đã được giới thiệu về Data Wrangler - một công cụ mạnh mẽ cho phép dễ dàng thiết lập các bước xử lý dữ liệu bằng giao diện trực quan.

Trong hệ sinh thái của Microsoft Fabric, có một công cụ xuất hiện từ lâu và cũng vô cùng phổ biến là Power Query - được tích hợp trong Power BI hay Dataflow.

Giữa Data Wrangler và Power Query Editor tồn tại nhiều đặc điểm tương đồng, song vẫn mang những khác biệt nhất định, sở hữu những nhiệm vụ khác nhau dành cho đối tượng sử dụng khác nhau.

Trong bài viết này, chúng ta sẽ cùng tìm hiểu và so sánh hai công cụ Data Wrangler và Power Query Editor, từ đó có thể đưa ra lựa chọn đúng công cụ cho từng mục đích sử dụng. Cùng mình bắt đầu nhé.

Data Wrangler

Data Wrangler là công cụ giúp những người làm khoa học dữ liệu có thể có cái nhìn tổng quát nhất về dữ liệu. Công cụ này thường được các Data Scientist sử dụng để biến thao tác xử lý dữ liệu trở nên dễ dàng, thuận tiện hơn.

Data Wrangler trong Fabric sở hữu một giao diện thân thiện và dễ thao tác: sau khi dữ liệu được load vào như một Data Frame, công cụ này này sẽ đưa ra cái nhìn tổng quan về Data Frame đó.

Một tính năng nổi bật của Data Wrangler là việc tự động tạo ra những dòng code Python giúp cho người dùng sử dụng với nhiều mục đích khác nhau, đặc biệt là công đoạn lọc và làm sạch dữ liệu.

Giao diện Data Wrangler trong Microsoft Fabric
Giao diện Data Wrangler trong Microsoft Fabric

Trong bài viết trước, chúng ta đã có cái nhìn tổng quát về Data Wrangler và các chức năng đã có. Các bạn có thể đọc bài viết Giới thiệu tổng quan về Notebook trong Microsoft Fabric để hiểu khái quát về Data Wrangler.

Power Query

Power Query là công cụ thực hiện xử lý, biến đổi dữ liệu và đưa dữ liệu vào trong Power BI. Công cụ này lần đầu tiên xuất hiện trên Excel vào năm 2013 dưới tên gọi Data Explorer. Trải qua nhiều năm phát triển, giao diện đồ họa của Power Query đã được cải thiện đáng kể.

Power Query có sẵn dưới dạng một thành phần quan trọng của Power BI, bao gồm: Power BI trong Microsoft Fabric, Power BI Desktop, Power BI Service, Power Apps, Excel, và các công cụ khác.

Power Query cung cấp trải nghiệm người dùng đồ họa phong phú cho những người làm phân tích dữ liệu với mục đích chuẩn bị và chuyển đổi dữ liệu thành một khối mà người dùng mong muốn.

Giao diện Power Query
Giao diện Power Query

Phân biệt mục đích sử dụng của Data Wrangler và Power Query Editor

Một trong những khác biệt lớn nhất giữa hai công cụ này là chức năng của mỗi công cụ đem lại cho người dùng. Tùy thuộc vào trường hợp sử dụng dữ liệu, một trong các công cụ có thể hoạt động tốt hơn công cụ kia.

Điều quan trọng là người dùng muốn thực hiện việc chuyển đổi dữ liệu như một phần của việc phân tích hay thực hiện việc chuẩn bị dữ liệu thành một phần của quy trình chạy một model Machine Learning. Các công cụ có sẵn cho mỗi vai trò có thể khác nhau, và cung cấp những khả năng khác nhau dành cho những người dùng khác nhau.

Power Query: Công cụ ETL dành cho Data Analyst

Power Query là một công cụ chuẩn bị và chuyển đổi dữ liệu. Chính xác hơn, đây là một công cụ ETL (Extract, Transform, Load) được tích hợp sẵn trong hầu hết các sản phẩm, dịch vụ của Microsoft liên quan đến dữ liệu, tiêu biểu như Power BI, Excel, Power Apps,... với hơn 200 nguồn dữ liệu được hỗ trợ

Các nguồn dữ liệu mà Power Query hỗ trợ
Các nguồn dữ liệu mà Power Query hỗ trợ

Hơn nữa, Power Query giúp người dùng dễ dàng hơn trong việc kết nối đến một nguồn dữ liệu và thực hiện các thao tác ETL với một giao diện người dùng thân thiện. Một vài chức năng chuyển đổi dữ liệu nổi bật như gộp, nối các tập dữ liệu với nhau, cũng giúp ích rất nhiều trong mọi tình huống chuyển đổi dữ liệu với Power Query.

Sau đó, dữ liệu đó có thể được đưa đến các nguồn lưu trữ khác nếu sử dụng trong Dataflow Gen2.

DataFlow trong Power Query
DataFlow trong Power Query

Cuối cùng, Power Query tạo ra các đoạn code M, ngôn ngữ lập trình được thiết kế riêng cho việc chuyển đổi dữ liệu. Không giống như các ngôn ngữ lập trình khác, ngôn ngữ M được thiết kế để làm việc, thao tác với dữ liệu,

Đoạn code M do Power Query tạo ra
Đoạn code M do Power Query tạo ra

Data Wrangler: Công cụ thao tác dữ liệu dành cho Data Scientist

Data Wrangler là công cụ dành cho Data Scientist có khả năng chuyển đổi dữ liệu dành cho các bước phân tích cao hơn.

Mặc dù đều là những công cụ chuyển đổi dữ liệu, nhưng trải nghiệm sử dụng của Data Wrangler và Power Query Editor không hề giống nhau.

Các nguồn dữ liệu được Data Wrangler hỗ trợ cũng khá hạn chế, khi mà chúng ta sẽ phải chuyển đổi các tập dữ liệu sang dạng Data Frame trước khi thực hiện các bước tiếp theo.

Giao diện Data Wrangler trong Microsoft Fabric
Giao diện Data Wrangler trong Microsoft Fabric

Một điểm khá giống nhau giữa Data Wrangler và Power Query Editor là khả năng tạo ra các đoạn code: Power Query với M, còn Data Wrangler với Python.

Đoạn code Python có thể giúp ích cho việc chuẩn bị dữ liệu trở thành một phần của các bước phân tích lớn hơn, có thể là áp dụng một số thuật toán Machine Learning trên dữ liệu đã được làm sạch để đưa ra các dự đoán.

Đoạn code Python do Data Wrangler tạo ra
Đoạn code Python do Data Wrangler tạo ra

Tổng kết: So sánh giữa Data Wrangler và Power Query Editor

Dưới đây là bảng tổng kết về những sự khác biệt giữa hai công cụ Data Wrangler và Power Query Editor trong Microsoft Fabric:

Điểm khác biệt Data Wrangler Power Query Editor
Môi trường có sẵn
  • Microsoft Fabric Notebook
  • Azure Synapse
Power BI trên mọi nền tảng Excel
Đối tượng người dùng chính Data Scientist Data Analyst
Ngôn ngữ lập trình được sử dụng Python M
Chức năng chính Sắp xếp và làm sạch dữ liệu ETL
Nguồn dữ liệu đưa vào công cụ Giới hạn với những nguồn dữ liệu được hỗ trợ với Spark và Pandas Hơn 200 nguồn
Chuyển đổi dữ liệu Giới hạn với những nguồn dữ liệu được hỗ trợ với Spark và Pandas. Nhiều chức năng, không giới hạn Hợp nhất, Nối thêm, tạo các chức năng tùy chỉnh, v.v.
Nguồn dữ liệu lưu trữ sau chuyển đổi Giới hạn với những nguồn dữ liệu được hỗ trợ với Spark và Pandas.
  • Các nguồn dữ liệu đến có trong Dataflow Gen2.
  • Excel output.
  • Tập dữ liệu Power BI.
  • Các tập dữ liệu trong các dịch vụ phân tích khác.
Ngôn ngữ lập trình được sử dụng Tạo ra các đoạn code Python với mục đích chuẩn bị dữ liệu cho việc phân tích và các bước phân tích sâu hơn sử dụng Python.
  • Chuyển đổi dữ liệu.
  • Chuẩn bị dữ liệu.
  • ETL.
Bài viết này thuộc series Data Science at Scale with Microsoft Fabric
Khám phá cách mà bạn có thể đẩy mạnh hiệu suất, tiết kiệm thời gian làm việc với dữ liệu qua việc khai thác sức mạnh của Microsoft Fabric.