Trang chủ Tổng quan Tiền xử lý dữ liệu với Power Query

Tiền xử lý dữ liệu với Power Query

đăng bởi Nguyễn Danh Tú
522 lượt xem

Tổng kết buổi 4: Tiền xử lý dữ liệu trên PowerQuery

Lợi ích :

☘ Không cần xử lý dữ liệu định kỳ khi có dữ liệu mới
Quá trình tiền xử lý dữ với PowerQuery giúp chúng ta chỉ cần lập trình cho máy tính một cách trực quan sinh động và không cần làm lại nhiều khi có dữ liệu mới phát sinh.

☘ Chủ động xây dựng hệ thống phân tích dữ liệu cho mình, giảm phụ thuộc vào IT cũng như rút ngắn vòng đời đặt hàng báo cáo
Thông thường việc đặt hàng các báo cáo sẽ có nhiều cổ chai và thời gian thực hiện lâu cũng như khó khả thi.
Lý do là bởi vì để ra được 1 báo cáo cần khoảng vài chục vòng xoáy giữa người đặt hàng và CNTT.
Với mỗi vòng xoáy này diễn ra khoảng 1 tuần, 1 tháng thì thời gian đặt hàng là lâu.
Việc sử dụng Power Query giúp ta biết dữ liệu của chúng ta như thế nào. Cần xử lý gì và từ đó xây dựng mẫu báo cáo như thế nào là hợp lý.
Từ đó rút ngắn thời gian của mỗi vòng xoáy.

Sở dĩ là được việc đó bởi vì Power Query giúp chúng ta:
1. Độc lập/tách biệt giữa dữ liệu ở datasource với Data warehouse
2. Liên kết được dữ liệu ở nhiều nơi thông qua load vào Data model
3. Khiến cho quá trình sau đó (BI dashboard) là sẽ nhanh (ko bị chậm).

Quá trình tiền xử lý dữ liệu ETL gồm 3 khâu chính như sau:

1. Extract

Trong Power Query hỗ trợ kết nối với nhiều kiểu nguồn dữ liệu khác nhau.
👉 Từ các định dạng file khác nhau như Excel, CSV, Text,… cho đến lấy dữ liệu từ 1 folder.
👉 Chúng ta cũng có thể lấy dữ liệu được từ cơ sở liệu của nhiều Hệ quản trị CSDL khác nhau như Oracle, Microsoft SQL Server, MySQL,…
👉 Đồng thời chúng ta cũng có thể lấy dữ liệu từ trên Google Sheet cũng là là một nguồn dữ liệu thường xuyên được sử dụng.

Về mặt tổng quát thì để lấy được dữ liệu cần có các thông tin như:
👉 Lấy ở đâu (địa chỉ file, folder, server, tên database)
👉 Lấy cái gì (sheet, câu lệnh truy vấn,…)
👉 Lấy với quyền gì (user/password)

☘ Lấy dữ liệu từ file, folder
Để lấy dữ liệu hệ thống file ta cần xác định đúng định dạng đuôi file và đường dẫn file, folder để lấy dữ liệu.
Các địa chỉ này là địa chỉ tuyệt đối nên khi sang máy khác ta cần chỉnh lại địa chỉ này hoặc cần làm thêm 1 số thao tác nữa để khi copy sang máy khác vẫn hoạt động.

☘ Lấy dữ liệu từ cơ sở dữ liệu
Ta cần các thông tin sau:
👉 Tên server: là địa chỉ máy tính chủ chứa cơ sở dữ liệu. Thường là một địa chỉ IP và kèm theo cổng.
Ví dụ: 192.168.2.3:3308 thì 192.168.2.3 là địa chỉ IP của máy chủ còn 3308 là cổng truy cập vào máy chủ đó.
Thông tin này giống như ta muốn mua đồ thì vào shoppee, lazada, tiki hay grab,..
👉 Tên Cơ sở dữ liệu: là nơi chứa dữ liệu mình cần lấy. Giống như ta vào shop nào vậy
👉 Nội dung cần lấy: Thường là ta chọn bảng nào trong CSDL hay một câu lệnh truy vấn hay một lời gọi tới procedure.
👉 Quyền lấy: là user/pass word đăng nhập

Khi thực hiện kết nối bị lỗi thường bởi các nguyên nhân sau:
👉 Sai thông tin truy cập (server, portal, user, pass)
👉 Mất kết nối internet tới server
👉 Chưa khai báo với tường lửa

Chúng ta có một số phương pháp để kiểm tra và gỡ rối để biết đến từ nguyên nhân nào.

☘ Lấy dữ liệu từ google sheet
Để lấy dữ liệu từ google sheet ta cần public quyền lấy và đưa link vào excel để truy vấn dữ liệu.
Trong link cũng đã bao gồm thông tin về về server và cơ sở dữ liệu như trên.

2. Transform

Sau khi trích rút thông tin ta đến bước tiếp theo là làm sạch và chuyển đổi dữ liệu cho nhu cầu phân tích.
Quá trình này sẽ bao gồm các thao tác trên 2D cơ bản như:
👉 Chọn cột dữ liệu:Xóa các cột không cần thiết, tách cột dữ liệu
👉 Chọn dòng dữ liệu: lọc trùng, bỏ một số dòng, lọc dữ liệu, lọc trùng, lọc nhiễu
👉 Thêm, tách một số cột thông tin cần thiết: Split to Column, Add Column

Sau khi đã tiền xử lý cơ bản, chúng ta sẽ có các thao tác trên khối dữ liệu để chuyển đổi được dữ liệu từ OLTP sang OLAP.
👉 Pivot: Xoay khối dữ liệu. Biến dòng thành cột.
👉 Unpivot: Xoay khối dữ liệu. Biến cột thành dòng.
👉 Group By: Tổng hợp dữ liệu. VD: Tổng hợp doanh số theo ngày, sản phẩm, khu vực.
👉 Merge Query: Kết nối dữ liệu từ nhiều bảng dữ liệu
👉 Append Query: Gộp các dữ liệu có cùng cấu trúc với nhau như Bảng lương các tháng, Doanh số các chi nhánh,…

Việc xoay dữ liệu cần tư duy logic về khối dữ liệu đã trình bày trong tuần số 2 của Khóa học.

3. Load

Dữ liệu sau khi được xử lý sẽ được lưu trữ lại dưới 3 dạng chính
👉 Lưu trữ thành các sheet trong Excel. Dữ liệu tạo ra một bản mới lưu trữ trên máy tính.
👉 Lưu trữ kết nối. Lưu trữ các thao tác và sẽ tự động sinh ra khi mở file.
👉 Lưu trữ vào Data model để tạo các liên kết dữ liệu

Trên đây là các nội dung cơ bản về tiền xử lý dữ liệu với Power Query.

Bạn có thể đánh giá trình độ phân tích dữ liệu tại đây để có thêm keyword cho lĩnh vực này.

Bạn cần tìm hiểu về khóa học Phân tích dữ liệu thì có thể đăng ký tại đây.

5 1 vote
Article Rating
Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x