Bài viết này KPIM sẽ giới thiệu về file CSV (Comma-Separated Values) – một định dạng phổ biến được sử dụng để lưu trữ và truyền dữ liệu. CSV đã trở thành một tiêu chuẩn không chính thức trong việc chia sẻ thông tin dữ liệu giữa các ứng dụng và nền tảng khác nhau.

File CSV là gì?

File CSV là một định dạng tệp văn bản được sử dụng để lưu trữ và truyền dữ liệu dưới dạng bảng, sắp xếp theo các cột và hàng. CSV là viết tắt của “Comma-Separated Values” (giá trị được phân tách bằng dấu phẩy), cho thấy rằng dấu phẩy thường được sử dụng để phân tách các giá trị trong tệp.

Một tệp CSV chứa thông tin dưới dạng các dòng và cột. Mỗi dòng trong tệp CSV tương ứng với một bản ghi hoặc một hàng trong bảng. Các giá trị trong mỗi hàng được phân tách bằng dấu phẩy hoặc ký tự khác như dấu chấm phẩy, tab, hoặc dấu cách. Thông thường, dấu phẩy được sử dụng rộng rãi nhất.

Tệp CSV rất phổ biến trong việc chia sẻ và trao đổi dữ liệu giữa các ứng dụng và hệ thống khác nhau, đặc biệt là trong lĩnh vực xử lý số liệu, quản lý cơ sở dữ liệu, và phân tích dữ liệu. Nhiều chương trình và ngôn ngữ lập trình cung cấp hỗ trợ cho việc đọc và ghi dữ liệu từ/đến tệp CSV.

Cấu trúc của file CSV

File CSV có cấu trúc đơn giản, bao gồm các thành phần chính sau:

  • Tiêu đề (Header): Tiêu đề trong file CSV định nghĩa các tên cột. Thông thường, tiêu đề được đặt ở đầu file và được phân tách bằng dấu phẩy hoặc ký tự phân tách khác.
  • Dòng dữ liệu (Data Rows): Dòng dữ liệu chứa các giá trị tương ứng cho từng cột trong CSV. Các dòng dữ liệu nằm sau tiêu đề và cũng được phân tách bằng dấu phẩy hoặc ký tự phân tách khác.
  • Cột (Column): Cột trong file CSV đại diện cho các thuộc tính hoặc trường dữ liệu. Mỗi cột được đặt tên duy nhất để xác định loại dữ liệu mà nó chứa.
  • Giá trị (Value): Giá trị là nội dung thực tế của từng ô dữ liệu trong CSV. Các giá trị được phân tách bằng dấu phẩy hoặc ký tự phân tách khác và phù hợp với kiểu dữ liệu tương ứng của cột.

Kết nối với dữ liệu từ file CSV

Kết nối với tệp giá trị được phân tách bằng dấu phẩy comma-separated value (CSV) từ Power BI Desktop rất giống kết nối với Excel. Cả hai đều dễ dàng và bài viết này hướng dẫn bạn cách kết nối với bất kỳ tệp CSV nào mà bạn có quyền truy cập.

Để bắt đầu, từ Power BI Desktop, chọn Get Data -> CSV từ Trang chủ.

Chọn Get Data -> CSV từ Trang chủ
Chọn Get Data -> CSV từ Trang chủ

Chọn tệp CSV của bạn từ hộp thoại Open xuất hiện.

Chọn tệp CSV từ hộp thoại Open
Chọn tệp CSV từ hộp thoại Open

Khi bạn chọn Open, Power BI Desktop sẽ truy cập tệp và xác định một số thuộc tính tệp nhất định, chẳng hạn như nguồn gốc tệp, loại dấu phân cách và số lượng hàng sẽ được sử dụng để phát hiện các loại dữ liệu trong tệp.

Các thuộc tính và tùy chọn tệp này được hiển thị trong các lựa chọn thả xuống ở đầu cửa sổ nhập CSV, được hiển thị bên dưới. Bạn có thể thay đổi bất kỳ cài đặt nào được phát hiện này theo cách thủ công, bằng cách chọn một tùy chọn khác từ bất kỳ bộ chọn thả xuống nào.

Thay đổi bất kỳ cài đặt nào theo cách thủ công
Thay đổi bất kỳ cài đặt nào theo cách thủ công

Khi hài lòng với các lựa chọn, bạn có thể chọn Tải để nhập tệp vào Power BI Desktop hoặc bạn có thể chọn Chỉnh sửa để mở Trình chỉnh sửa truy vấn và định hình thêm hoặc biến đổi dữ liệu trước khi nhập.

Khi bạn tải dữ liệu vào Power BI Desktop, bạn sẽ thấy bảng và các cột của nó (được trình bày dưới dạng Trường trong Power BI Desktop) trong ngăn Trường, dọc theo bên phải của dạng xem Báo cáo trong Power BI Desktop.

Dữ liệu từ tệp CSV hiện có trong Power BI Desktop
Dữ liệu từ tệp CSV hiện có trong Power BI Desktop

Đó là tất cả những gì bạn phải làm - dữ liệu từ tệp CSV của bạn hiện có trong Power BI Desktop.

Chú ý: Khi bạn nhập tệp CSV, Power BI Desktop tạo ra trong câu lệnh số cột trích xuất = x (trong đó x là số cột trong tệp CSV trong quá trình nhập lần đầu) như một bước trong Power Query Editor.

Nếu sau đó bạn thêm nhiều cột hơn và nguồn dữ liệu được đặt thành làm mới, thì bất kỳ cột nào vượt quá số cột x ban đầu sẽ không được làm mới.

Kết nối với dữ liệu từ file Excel ở máy tính bằng Get Data

Có lẽ đây là một trong tính năng dễ dàng và đơn giản nhất khi kết nối với Power BI. Để kết nối dữ liệu từ Excel, bạn chỉ cần từ thanh công cụ Home -> Get Data -> Excel, hoặc ấn Excel ngay bên cạnh.

Kết nối với dữ liệu từ file Excel ở máy tính bằng Get Data
Kết nối với dữ liệu từ file Excel ở máy tính bằng Get Data

Một cửa sổ mở ra yêu cầu bạn lựa chọn file Excel muốn tải dữ liệu vào Power BI. Sau khi bạn chọn file Excel, chúng ta sẽ thấy có những loại danh mục có thể tải vào Power BI từ Excel bao gồm:

Kết nối với dữ liệu từ file Excel ở máy tính bằng Get Data
Lựa chọn file Excel muốn tải dữ liệu vào Power BI
  • Các Sheets: trong trường hợp trên, chúng ta có 3 sheets Sales, SalesRepsSalesYTD
  • Các Bảng Table: trong trường hợp trên, chúng ta có bảng qrySales

Kết nối với dữ liệu từ file Excel ở máy tính bằng Import Workbook

Một cách khác chúng ta có thể thực hiện để kết nối dữ liệu với Excel đó là bằng Import. Đây là một cách hay nếu chúng ta đã sử dụng các tính năng của Power BI trên Excel bao gồm bộ 3 Power Query, Power Pivot và Power View.

Kết nối với dữ liệu từ file Excel ở máy tính bằng Import Workbook
Kết nối với dữ liệu từ file Excel ở máy tính bằng Import Workbook

Bằng cách vào File -> Import -> Power Query, Power Pivot, Power View , chúng ta sẽ thấy có các lựa chọn như trên và có thể chọn để tải vào các thành phần của Power Query, Power Pivot và Power View từ Excel.

Sau khi chọn tệp cần tải vào, chúng ta sẽ thấy Power BI sẽ tải về không phải là sheets mà thực chất là mô hình mà đang được sử dụng trên Excel như dưới đây bao gồm Queries, Data Model và KPI, Measures

Queries, Data Model và KPI, Measures
Queries, Data Model và KPI, Measures

Một số công cụ hỗ trợ làm việc với file CSV

File CSV (Comma-Separated Values) là một định dạng dữ liệu phổ biến và rất hữu ích trong quản lý và truyền tải dữ liệu. Có nhiều công cụ mạnh mẽ được phát triển để hỗ trợ làm việc với CSV, giúp người dùng dễ dàng đọc, chỉnh sửa và xử lý dữ liệu trong file CSV.

Microsoft Excel

Microsoft Excel là một trong những công cụ phổ biến nhất để làm việc với file CSV.

Excel cung cấp khả năng mở và lưu trữ dữ liệu dưới định dạng CSV, cho phép bạn thực hiện các thao tác chỉnh sửa, tính toán và trực quan hóa dữ liệu một cách dễ dàng. Excel cũng cung cấp các chức năng mạnh mẽ để lọc, sắp xếp và phân tích dữ liệu trong định dạng CSV.

Các ngôn ngữ lập trình (Python, R, etc.)

Các ngôn ngữ lập trình như Python, R, và nhiều ngôn ngữ khác cũng cung cấp các thư viện và module hỗ trợ làm việc với file CSV.

Ví dụ, trong Python, thư viện pandas cung cấp các chức năng để đọc, ghi và xử lý dữ liệu CSV một cách linh hoạt. Trong R, gói dplyr cung cấp các công cụ tương tự để làm việc với dữ liệu CSV.

Sử dụng các ngôn ngữ lập trình, bạn có thể thực hiện các phân tích dữ liệu phức tạp và xử lý dữ liệu lớn trong CSV.

Công cụ quản lý cơ sở dữ liệu (SQL, MySQL, etc.)

Công cụ quản lý cơ sở dữ liệu như SQL, MySQL, PostgreSQL cũng hỗ trợ làm việc với file CSV. Sử dụng các câu lệnh SQL, bạn có thể import hoặc export dữ liệu vào hoặc từ file CSV. Điều này cho phép bạn lưu trữ dữ liệu CSV trong cơ sở dữ liệu, thực hiện các truy vấn phức tạp và kết hợp dữ liệu từ nhiều nguồn khác nhau.

Kết luận

Trong bài viết này, KPIM đã cùng với các bạn tìm hiểu về file CSV (Comma-Separated Values) – một định dạng đơn giản và phổ biến để lưu trữ và truyền dữ liệu. Chúng ta đã khám phá cấu trúc của file CSV, mô tả định dạng và phân cách dữ liệu trong file, cũng như quy tắc đặt tên cột.