Trang chủ Chuyên đề Các bước để Data Exploration (Khám phá dữ liệu)

Các bước để Data Exploration (Khám phá dữ liệu)

đăng bởi Nguyễn Danh Tú
1879 lượt xem

✨ CÁC BƯỚC KHÁM PHÁ DỮ LIỆU ✨

Để đơn giản các bạn hình dung với một bảng dữ liệu ta cần trích rút được thông tin từ đó.
Với việc tiếp cận bảng dữ liệu đó như một khối dữ liệu.
🍀 BƯỚC 1. XÁC ĐỊNH CÁC CHIỀU (DIMENSION) VÀ GIÁ TRỊ PHÂN TÍCH (FACTS) CỦA KHỐI DỮ LIỆU
Chủ điểm mình cần phân tích thường là Facts.
🌳 Ví dụ: Khách hàng, doanh số, tỷ lệ chuyển đổi, Chất lượng chăm sóc, nhân sự, sản phẩm, hành vi người dùng, ….
Chủ điểm này sẽ được phân tích, quan sát trên nhiều khía cạnh khác nhau (Dimension)
Ví dụ:
👉 chân dung khách hàng theo độ tuổi, khu vực sinh sống, giới tính,…. thì độ tuổi, khu vực sinh sống, giới tính chính là các Dimension.
👉 Doanh số bán hàng chi tiết theo khu vực, sản phẩm, đối tác, loại hình bán, kênh tiếp thị,…. thì khu vực, sản phẩm, đối tác, loại hình bán, kênh tiếp thị chính là các Dimension
👉 Báo cáo tình hình nhân sự hàng tháng, quý năm,… thì tháng, quý, năm là chiều phân tích thời gian.
👉 thời gian sử dụng ứng dụng theo khung giờ
Các Dim và Fact này sẽ đến từ các yêu cầu thực tế và trích xuất ra từ các trường dữ liệu (cột) trong hệ thống.
✍️ Hướng dẫn: Bạn viết các yêu cầu phân tích hay các báo cáo ra giấy rồi lọc ra các danh từ.
Hoặc bạn copy các cột dữ liệu rồi Tranpose ra một nơi khác.
🍀 BƯỚC 2: XÁC ĐỊNH HỆ THỐNG CÁC CHIỀU (MÌNH HAY GỌI LÀ CON VOI KHÁI NIỆM)
Sau khi liệt kê được các chiều. Mình sẽ xác định được chi tiết dữ liệu trong từng chiều đó để có hiểu biết sâu hơn về các chiều dữ liệu.
🌳 Ví dụ:
👉 khu vực của khách hàng thì cụ thể là các khu vực nào
👉 độ tuổi của khách hàng thì cụ thể là các độ tuổi nào
👉 sản phẩm thì cụ thể danh sách các sản phẩm là gì
👉 dữ liệu trong khoảng thời gian nào (mấy năm, mấy tháng)
✍️ Hướng dẫn: Bạn sử dụng tính năng remove duplicate với từng cột dữ liệu để tạo ra từng chiều rồi copy vào một sheet.
🍀 BƯỚC 3: PHÂN TÍCH PHÂN PHỐI VÀ ĐẶC TRƯNG CỦA TỪNG CHIỀU
Sau khi liệt kê từng chiều. Bạn có thể tiến tới phân tích phân phối, đặc trưng của từng chiều đó.
Ta có thể mô tả phân bố này trên nhiều fact với cùng 1 dim.
🌳 Ví dụ:
👉 Phân bố doanh thu theo khu vực
👉 Phân bố khách hàng theo khu vực
👉 Phân bố doanh thu theo kênh marketing
👉 Phân bố khách hàng theo độ tuổi
👉 Phân bố các dự án theo mã nguồn
👉 Phân bố thời lượng sử dụng ứng dụng theo thời gian (khung giờ, tuần, ngày,…)
Từ đó bạn cũng tính được các đặc trưng như:
👉 doanh thu trung bình một đơn hàng
👉 Độ tuổi trung bình của khách hàng
👉 Khung giờ nào user vào ứng dụng nhiều nhất,…
✍️ Hướng dẫn: bạn sử dụng tính năng pivot table, pivot chart hoặc sử dụng add-in Data Analysis để thống kê và vẽ các đặc trưng này
🍀 BƯỚC 4: PHÂN TÍCH TƯƠNG QUAN
Tiếp theo sau khi tìm hiểu phân phối. Ta đi vào điểm hiểu mối quan hệ giữa các thành phần với nhau.
Mối quan hệ giữa dim-dim; dim-fact; fact-fact
🌳 Ví dụ:
👉 Mối quan hệ giữa thời gian gọi điện chăm sóc và tỷ lệ chuyển đổi
👉 Khu vực chứa các tỉnh thành hay tỉnh thành chứa các khu vực hay không liên quan tới nhau
👉 Mối quan hệ giữa độ tuổi và hạn mức tín dụng
👉 Mối quan hệ giữa thu nhập và khả năng chi trả
👉 Mối quan hệ giữa chi phí marketing và doanh số
👉 Mối quan hệ giữa giá trị một đơn hàng và tỷ lệ chuyển đổi
✍️ Hướng dẫn: bạn sử dụng tính năng pivot table, pivot chart hoặc sử dụng add-in Data Analysis để thống kê và vẽ các đặc trưng này
Sử dụng Pivot table để tìm hiểu mối quan hệ giữa hai chiều Dimension
Sử dụng Radar chart để tìm hiểu mối tương quan giữa 2 chiều 
Sử dụng Scatter chart để tìm hiểu mối tương quan giữa 2 chiều 
🍀 BƯỚC 5: PHÂN TÍCH ĐA CHIỀU
Ở bước này, bạn có thể phân tích một chủ điểm dựa cần phần tích (facts) trên một hệ thống các báo cáo nhìn cùng một lúc gọi là dashboard.
Điều này giống như bạn nhìn hệ thống camera giám sát an ninh tại một tòa nhà hay hệ thống điều phối giao thông.
Thông qua các slice & dice cắt lớp sẽ giúp bạn mổ xẻ và phân tích được chi tiết dữ liệu hơn.
Bạn sử dụng các thao tác:
👉 Slice
👉 Dice
👉 Pivot
👉 Rollup
👉 Drill Down
để phân tích.
✍️ Hướng dẫn: bạn kết hợp với tính năng pivot table, pivot chart, slicer, timeline, sparkline,… để tạo một dashboard
Sử dụng dashboard trong phân tích dữ liệu đa chiều
🍀 BƯỚC 6: KHAI PHÁ DỮ LIỆU (DATA MINING)
Bạn áp dụng các mô hình, phương pháp học sâu,… để tìm ra các thông tin sâu hơn từ tập dữ liệu.
🌳 Ví dụ:
👉 Khách hàng khi mua sản phẩm A thì hay quan tâm tới sản phẩm nào khác
👉 Các hành gian lận hay có các dấu hiệu gì
👉 Dự báo được kế hoạch kinh doanh cho chu kỳ tiếp theo
👉 Xu hướng sản phẩm đang dịch chuyển theo hướng nào
👉 ….
Trên đây là các bước khám phá dữ liệu. Bạn có thể hỏi thêm các nội dung khác nhé.

Đọc thêm và Data Exploration – Khám phá dữ liệu

Bạn có thể đánh giá trình độ phân tích dữ liệu tại đây để có thêm keyword cho lĩnh vực này.

Bạn cần tìm hiểu về khóa học Phân tích dữ liệu thì có thể đăng ký tại đây.

5 1 đánh giá
Đánh giá bài viết
Theo dõi
Thông báo của
guest

0 Góp ý
Phản hồi nội tuyến
Xem tất cả bình luận