Trong bài viết này, KPIM sẽ khám phá quá trình kết nối và phân tích dữ liệu web bằng Power BI Desktop. Power BI Desktop là một công cụ mạnh mẽ cho phép ta tạo báo cáo và bảng điều khiển từ nhiều nguồn dữ liệu khác nhau, bao gồm cả dữ liệu trực tuyến từ các trang web.

Kết nối và phân tích dữ liệu web trong Power BI Desktop mang lại nhiều lợi ích, cho phép ta trực quan hóa và khám phá dữ liệu từ các nguồn web một cách dễ dàng. Qua đó, ta có thể đưa ra những thông tin quan trọng và kịp thời từ các nguồn dữ liệu đáng tin cậy trực tuyến.

Hãy tiếp tục đọc để khám phá quá trình kết nối và phân tích dữ liệu web bằng Power BI Desktop và khám phá sức mạnh của việc sử dụng dữ liệu trực tuyến trong quá trình làm việc với Power BI.

Kết nối với nguồn dữ liệu trên Web

Bạn có thể lấy dữ liệu các đội chiến thắng UEFA từ trang Wikipedia về giải vô địch bóng đá châu Âu UEFA.

Kết quả các đội chiến thắng UEFA qua các năm
Kết quả các đội chiến thắng UEFA qua các năm

Kết nối web chỉ được thiết lập bằng cách sử dụng xác thực cơ bản dạng Anonymous. Các trang web yêu cầu xác thực tài khoản truy cập có thể không hoạt động bình thường với trình kết nối Web.

Hướng dẫn cách trích xuất dữ liệu

Bước 1:

Tại tab Home của Power BI Desktop, ta chọn kéo thả mũi tên bên cạnh Get Data và chọn Web.

Lưu ý: Bạn có thể chọn chính mục Get Data hoặc chọn Get Data từ Power BI Desktop, sau đó chọn Web từ All hoặc Other Section của hộp Get Data và chọn Connect.

Trích xuất dữ liệu từ web
Trích xuất dữ liệu từ web
Bước 2:

Trong hộp From Web, hãy dán link URL sau vào box URL, rồi chọn OK.

				
					https://en.wikipedia.org/wiki/UEFA_European_Football_Championship
				
			
Điền URL vào Hộp From Web
Điền URL vào Hộp From Web

Sau khi kết nối với trang web Wikipedia, hộp thoại Navigator hiển thị danh sách các bảng có sẵn trên trang. Bạn có thể chọn bất kỳ tên bảng nào để xem trước dữ liệu của nó.

Bảng Result[edit] có dữ liệu bạn muốn mặc dù nó có thể không chính xác ở hình dạng bạn cần. Vì thế sau đó bạn sẽ định hình lại và dọn dẹp dữ liệu trước khi tải nó vào báo cáo của mình.

Lưu ý: Preview hiển thị các bảng đã được chọn nhưng tất cả các bảng ấy sẽ được tải vào Power Query Editor sau khi bạn chọn Transform Data hoặc Load.

Bảng Result[edit] có dữ liệu bạn muốn

Bảng Result[edit] có dữ liệu bạn muốn

Bước 3:

Chọn Result[edit] trên thanh Navigator và chọn Transform Data.

Các bảng xem trước sẽ được mở trên Power Query Editor nơi mà bạn có thể thự hiện các bước biến đổi để làm sạch dữ liệu.

Bảng xem trước được mở trên Power Query Editor
Bảng xem trước được mở trên Power Query Editor

Định dạng dữ liệu trên Power Query Editor

Bạn muốn quét dữ liệu dễ dàng hơn bằng cách chỉ hiện thị năm và quốc gia đã giành chiến thắng. Chúng ta sẽ sử dụng Power Query Editor để thực hiện các bước định hình và làm sạch dữ liệu này. Trong case dưới đây, ta các cột không liên quan - chỉ giữ lại 2 cột cần thiết, sau đó đổi tên các cột này thành "Year" và "Country"

Bước 1:

Loại bỏ tất cả các cột ngoại trừ 2 cột chứa dữ liệu ta quan tâm.

  • Trong Power Query Editor, chọn các cột và giữ Ctrl để chọn thêm nhiều cột cần giữ lại.
  • Click chuột phải và chọn Remove Other Columns, hoặc chọn Remove Columns > Remove Other Columns từ nhóm Manage Columns trong tab Home để xoá tất cả các cột không cần ra khỏi bảng.
Previous slide
Next slide

Hai cách để xoá tất cả các cột không cần ra khỏi bảng

Bước 2:

Xoá các từ "Details" từ các ô của cột đầu tiên.

  • Chọn cột đầu tiên.
  • Click chuột phải và chọn Replace Values, hoặc chọn Replace Values từ Transform trong tab Home. Tùy chọn này cũng được tìm thấy trong Any Column trên Transform tab.
Previous slide
Next slide

Hai cách để xoá các từ "Details" từ các ô của cột đầu tiên bằng Replace Values

  • Trong hộp Replace Values, nhập Details vào ô Value To Find và bỏ trống ô Replace With, sau đó chọn OK để xoá bỏ các từ Details từ các cột đã chọn.
Hộp Replace Values
Hộp Replace Values
Bước 3:

Một số ô chỉ chứa từ "Year" thay vì giá trị năm. Vì vậy. ta phải lọc cột để hiển thị các hàng không chứa từ "Year".

  • Chọn mũi tên thả xuống của bộ lọc trên cột.
  • Trong phần menu thả xuống, ta kéo xuống và bỏ chọn checkbox bên cạnh "Year", sau đó click OK.
Lọc cột để hiển thị các hàng không chứ từ “Year”
Lọc cột để hiển thị các hàng không chứ từ “Year”
Bước 4:

Bởi vì bạn chỉ cần tìm dữ liệu những đội chiên thắng ở vòng chung kết, bạn có thể thay đổi tên cột thứ hai thành "Country". Có hai cách đổi tên cột:

  • Cách 1: Nhấp chuột hai lần, hoặc nhấn và giữ header của cột thứ hai.
  • Cách 2:
    • Click chuột phải cột header và chọn Rename
    • Chọn cột và chọn Rename từ Any Column trong tab Transform
Previous slide
Next slide

Hai cách đổi tên cột

  • Nhập "Country" trong ô header và nhấn Enter để đổi tên cột.
Bước 5:

Bạn cũng có thể lọc các hàng như "2020" không có giá trị gì trong cột Country. Ta có thể sử dụng menu lọc như bạn đã làm trước đó ở giá trị Year, hay có thể làm như sau:

  • Click chuột phải ở ô "Country" ngay hàng 2020 - nơi không có giá trị nào.
  • Chọn Text Filters > Does not Equal trong phần menu để loại bỏ các hàng chứa giá trị của ô.
Chọn Text Filters > Does not Equal
Chọn Text Filters > Does not Equal

Nhập các truy vấn (Query) vào Report View

Bây giờ bạn có thể định dạng data theo cách bạn muốn, bạn đã sẵn sàng đặt tên query của bạn là “Euro Cup Winners” và nhập nó vào bảng báo cáo.

Bước 1:

Trong Query Settings, có box Name vào nhập dòng chữ "Euro Cup Winners".

Nhập dòng chữ Euro Cup Winners
Nhập dòng chữ "Euro Cup Winners"
Bước 2:

Chọn Close & Apply > Close & Apply từ tab Home.

Chọn Close & Apply > Close & Apply từ tab Home
Chọn Close & Apply > Close & Apply từ tab Home
Bước 3:

Query sẽ tải vào Power BI Deskstop Report nơi bạn có thể nhìn thấy các Fields.

Query được tải vào Power BI Deskstop Report
Query được tải vào Power BI Deskstop Report
Tips:

Bạn có thể quay lại Power Query Editor để chỉnh sửa và thay đổi lại query của bạn bằng hai cách sau:

  • Cách 1: Chọn More options kế bên "Euro Cup Winners" trong Fields và chọn Edit Query
  • Cách 2: Chọn Edit Queries > Edit Queries trong phần External data của Home tab trong Report view.

Tạo hình ảnh Visualization dựa trên dữ liệu

Bước 1:

Chọn trường Country trong Fields hoặc kéo thả trường đó vào khung báo cáo. Power BI Desktop sẽ nhận diện dữ liệu của bạn theo các tên quốc gia và tự động tạo Map visualization.

Chọn trường Country trong Fields
Chọn trường Country trong Fields
Bước 2:

Phóng to biểu đồ bằng cách kéo các góc để hiển thị tên các quốc gia chiến thắng.

Phóng to biểu đồ bằng cách kéo các góc
Phóng to biểu đồ bằng cách kéo các góc

Bản đồ hiển thị các điểm dữ liệu giống nhau cho mọi quốc gia giành được giải đấu Euro Cup.

Bước 3:

Làm cho kích thước của mỗi điểm dữ liệu thể hiện tần suất quốc gia đã giành chiến thắng.

  • Kéo trường Year đến Drag data fields here ở phần dưới Size của Visualization.
  • Trường tự động thay đổi thành Count of Year, và hình ảnh bản đồ hiện hiển thị các điểm dữ liệu lớn hơn cho các quốc gia đã giành được nhiều giải đấu hơn.
Trường tự động thay đổi thành Count of Year
Trường tự động thay đổi thành Count of Year

Tuỳ chỉnh hình ảnh trực quan hoá

Như bạn thấy thì rất dễ dàng để tạo một visualization dựa trên dữ liệu của bạn. Và cũng dễ dàng tuỳ chỉnh bảng báo cáo trực quan hoá theo cách bạn muốn. Bạn có thể chọn biểu đồ và thay đổi loại biểu đồ trên danh sách các biểu đồ một cách dễ dàng.

Power BI cũng không bị giới hạn bởi những biểu đồ trên danh sách mà có thể tải về các biểu đồ Custom Visuals từ các bên phát triển thứ 3.

Định dạng các biểu đồ

Bạn có thể thay đổi hình thức hiển thị bằng cách chọn nó rồi chọn biểu tượng Format (hình lăn sơn) trong ngăn Visualization.

Ví dụ: các điểm dữ liệu của nước “Germany” có thể gây nhầm lẫn vì West Germany đã thắng hai giải đấu và Germany thắng một giải. Vì vậy bản đồ sẽ chồng hai điểm chứ không phải tách hoặc cộng chúng lại với nhau. Bạn có thể tô màu hai điểm này khác nhau để làm nổi bật điểm này. Bạn cũng có thể đặt cho bản đồ một tiêu đề mô tả và hấp dẫn hơn.

Bước 1:

Với hình ảnh được chọn, hãy chọn biểu tượng Format, sau đó chọn Data colors để mở rộng các tùy chọn màu.

Chọn biểu tượng Format
Chọn biểu tượng Format
Bước 2:

Bật Show all ở chế độ On và chọn phần menu thả xuống kế bên "West Germany" và chọn màu vàng.

Bật Show all ở chế độ On
Bật Show all ở chế độ On
Bước 3:

Chọn Title để mở rộng các lựa chọn tiêu đề và trong trường Title text, nhập "Euro Cup Winners".

Bước 4:

Thay đổi Font color sang đỏ, Text size ở 12 và Font family sang Segoe (Bold).

Chọn Title để mở rộng các lựa chọn tiêu đề
Chọn Title để mở rộng các lựa chọn tiêu đề

Biểu đồ trực quan của bạn sẽ như thế này:

Kết quả hiển thị biểu đồ
Kết quả hiển thị biểu đồ

Thay đổi các dạng hình ảnh trực quan hoá

Bạn có thể thay đổi kiểu trực quan hóa bằng cách chọn một biểu tượng khác ở đầu Visualizations.

Ví dụ: hình ảnh hóa bản đồ của bạn thiếu dữ liệu về Soviet Union và Czechoslovakia vì những quốc gia đó không còn tồn tại trên bản đồ thế giới. Một loại hình ảnh trực quan khác như biểu đồ dạng treemap hoặc biểu đồ pie chart có thể chính xác hơn vì nó hiển thị tất cả các giá trị.

Để thay đổi bản đồ thành biểu đồ hình tròn, hãy chọn bản đồ và sau đó chọn biểu tượng Pie chart trong Visualizations. Như bạn thấy thì rất dễ dàng tuỳ chỉnh biểu đồ báo cáo trực quan hoá theo cách bạn muốn.

Power BI cũng không bị giới hạn bởi những biểu đồ trên danh sách mà có thể tải về các biểu đồ Custom Visuals từ các bên phát triển thứ 3.

Thay đổi các dạng hình ảnh trực quan hoá
Thay đổi các dạng hình ảnh trực quan hoá

Power BI Desktop cung cấp cho người dùng những trải nghiệm từ việc lấy dữ liệu từ nhiều nguồn khác nhau và định hình dữ liệu để đáp ứng nhu cầu phân tích của bạn, đến hiển thị dữ liệu này theo những cách phong phú hơn. Khi báo cáo của bạn đã sẵn sàng, bạn có thể tải báo cáo đó lên Power BI và tạo trang tổng quan dựa trên báo cáo đó và chia sẻ với những người dùng Power BI khác.

Kết luận

Trên đây là hướng dẫn về quá trình kết nối và phân tích dữ liệu web bằng Power BI Desktop. Bằng cách sử dụng công cụ này, bạn có thể trực quan hóa và khám phá dữ liệu từ các nguồn web trực tuyến một cách dễ dàng và hiệu quả.

Kết nối và phân tích dữ liệu web bằng Power BI Desktop mở ra nhiều cơ hội và lợi ích trong việc tạo ra báo cáo và bảng điều khiển thông tin từ các nguồn dữ liệu trực tuyến. Bạn có thể tự do khám phá các nguồn dữ liệu đáng tin cậy trực tuyến và sử dụng Power BI Desktop để tạo ra những báo cáo và bảng điều khiển tùy chỉnh, đáp ứng đúng nhu cầu của bạn.

Với những bước hướng dẫn trong bài viết này, hy vọng bạn đã có cái nhìn tổng quan về quá trình kết nối và phân tích dữ liệu web bằng Power BI Desktop. Hãy thử áp dụng những kiến thức này vào công việc của bạn và khám phá thêm tiềm năng của việc sử dụng dữ liệu web trong Power BI.

Nếu bạn muốn tìm hiểu thêm về Power BI và cách sử dụng nó để tối ưu hóa phân tích dữ liệu, hãy tiếp tục khám phá các tài nguyên và hướng dẫn khác từ Power BI và cộng đồng người dùng.