Trang chủ Chuyên đề Tổng quan phân tích dữ liệu

Tổng quan phân tích dữ liệu

đăng bởi Nguyễn Danh Tú
178 lượt xem

Mình gửi cả nhà tổng quan phân tích dữ liệu nhé

TỔNG KẾT BUỔI 1: TỔNG QUAN PHÂN TÍCH DỮ LIỆU
🍀 Quy trình khai thác dữ liệu

✌ Tập hợp các nguồn dữ liệu
✌ Tiền xử lý, tích hợp và lưu trữ dữ liệu sạch vào Datawarehouse
✌ Khám phá dữ liệu qua thống kê, truy vấn và báo cáo và sâu hơn là thống kê phân tích từng “cột” thông tin
✌ Khai phá dữ liệu sâu với 4 lớp bài toán chính là phân lớp, phân cụm, luật kết hợp và dự báo
✌ Trực quan hóa thông tin qua biểu đồ, map
✌ Ra quyết định dựa trên thông tin

PPT - Data Warehousing 資料倉儲 PowerPoint Presentation, free download -  ID:986934

🍀 Kiến trúc hệ thống khai thác dữ liệu

Để thiết lập lên hệ thống khai thác dữ liệu chúng ta có 04 thành phần chính.

Sự khác biệt giữa Database và Data Warehouse

1⃣ Thành phần 1. Các nguồn dữ liệu (Data sources).

Các nguồn dữ liệu này lưu trữ dữ liệu để chúng ta cần phần tích.
Dữ liệu đó có thể là:
✌ Cơ sở liệu (Database)
✌ Excel
✌ Google Sheet
✌ hay được cung cấp bởi API của các hệ thống

2⃣ Thành phần 2. Tiền xử lý dữ liệu (ETL).

Quá trình này có thể thực hiện trên 1 file excel hoặc trên một Cơ sở dữ liệu đệm (staging) với các mô hình dữ liệu lớn hơn.
Đầu vào của quá trình này là các nguồn dữ liệu và đầu ra là dữ liệu đã được làm sạch lưu trữ trong các kho dữ liệu (Data warehouse)
Quá trình gồm 3 thành phần chính là:
✌ Trích rút dữ liệu (Extract Data):
Các bài toán con là:
– Lấy được dữ liệu từ nhiều hệ thống, nhiều định dạng lưu trữ rồi phân biệt được dữ liệu đã lấy và chưa lấy. VD: lấy dữ liệu từ hệ thống CRM, ERP,…
– Tích hợp dữ liệu từ nguồn lại. VD: gộp bảng lương các tháng thành một khu. Kết nối dữ liệu khách hàng từ hệ thống marketing & kinh doanh.

✌ Xử lý dữ liệu (Tranform Data): Xử lý và biến đổi dữ liệu về dạng để hỗ trợ phân tích tốt.
Các bài toán con là:
– Data Validation: Chuẩn hóa dữ liệu để có thể tính toán được. VD: HN, Hà nội, Ha noi –> Hà Nội
– Data Cleaning: Làm sạch dữ liệu như các dữ liệu lỗi. VD: bỏ các cột, dòng, tiêu đề không cần thiết.
– Data Transforming: Biến đổi dữ liệu về dạng phân tích. VD: đưa dữ liệu từ OLTP->OLAP, pivot khối dữ liệu.
– Data Aggregating: Tổng hợp dữ liệu, mục đích là để giảm kích cỡ. VD: từ dữ liệu giao dịch thì tổng hợp lại theo tháng, sản phẩm.

✌ Lưu trữ dữ liệu đã xử lý (Load Data)
Các bài toán con là:
– Lưu trữ dữ liệu
– Liên kết dữ liệu qua các mô hình dữ liệu.

3⃣ Thành phần 3. Kho dữ liệu (Data warehouse)

✌ Trong kho dữ liệu sẽ gồm các dữ liệu đã được xử lý sạch và tối ưu hóa cho quá trình phân tích & khai thác dữ liệu.
Các kho dữ liệu này lưu trữ dữ liệu tổng hợp từ nhiều hệ thống của doanh nghiệp trong một thời gian dài.
Ví dụ: lưu trữ dữ liệu từ các hệ thống CRM, ERP, ODS, HR, Accounting,…
hoặc dữ liệu của các hệ thống được nâng cấp. Ví dụ trước mình dùng kế toán Misa sau mình chuyển sang ERP thì sẽ lưu được dữ liệu cả hai hệ thống này.

✌ Trong Datawarehouse cũng sẽ có các Data Mart là dữ liệu cho từng chủ đề phân tích.
Ví dụ:
– dữ liệu phân tích hành vi khách hàng
– dữ liệu phân tích tài chính
– dữ liệu phân tích chân dung khách hàng
– dữ liệu phân tích doanh số
– dữ liệu tổng hợp

✌ Các dữ liệu thô tiền xử lý (staging) đôi khi cũng lưu trữ luôn trong Data warehouse

4⃣ Thành phần 4. Khai thác dữ liệu

Dữ liệu sau khi được lưu trữ trong Datawarehouse sẽ được khai thác cho rất nhiều các mục đích khác nhau của doanh nghiệp.
✌ Như các mảng việc sau:
– Xây dựng các hệ thống giám sát hoạt động vận hành doanh nghiệp
– Xây dựng các hệ thống phân tích các biến động trong quá khứ
– Lập kế hoạch, dự báo tương lai
– Tối ưu hóa, Phát hiện gian lận, gia tăng trải nghiệm khách hàng,….

✌ Về mặt tổng thể các bài toán này chia làm các nhóm:
– phân tích đa chiều – OLAP Analysis
– Khai phá dữ liệu – Data Mining
– Trực quan hóa dữ liệu – Data Visualization
– Báo cáo – Reports
– Bảng phân tích – Dashboards
– Cảnh báo – Alerts

🍀 Khám phá dữ liệu – Data Exploration

Khám phá dữ liệu là quá trình đầu tiên để ta trích rút được các thông tin từ dữ liệu của mình.

Data Exploration Process - Cycle, HD Png Download - 1350x743(#5863992) -  PngFind
✌ Các hoạt động báo cáo của doanh nghiệp cũng là một dạng khám phá dữ liệu đơn giản.

✌ Về mặt thống kê, khám phá dữ liệu sẽ bao gồm:
🌳 Thống kê phân bố, đặc trưng sử dụng các biểu đồ phân phối hay biểu đồ Pareto.
Ví dụ: khi thống kê về khu vực thì sẽ có các câu hỏi.
– Phân bố đơn hàng, sản lượng, doanh số theo từng khu vực như thế nào.
– Khu vực nào có đơn hàng nhiều nhất (MOD).
– 20% khu vực nào chiếm tới 80% sản lượng bán ra hoặc doanh số

Khi thống kê theo khung giờ trong ngày thì sẽ có câu hỏi.
– Lượt xem hệ thống như thế nào vào các khung giờ
– Khung giờ nào có lượt xem nhiều nhất.
– 80% lượt xem đến từ khoảng thời gian nào trong ngày.

🌳 Phân tích mỗi quan hệ giữa các thành phần.
Ta có thể xem các thành phần có mối tương quan hay quan hệ với nhau thế nào.
Việc khách hàng xem vào khung giờ nào có liên quan gì tới khả năng mua hàng không.
Màu sắc sản phẩm có tác động doanh số không.
Thời gian tuyển dụng trong năm có liên quan tới nghỉ việc hay không.
Giá sản phẩm và doanh số tác động với nhau như thế nào. Có phải cứ tăng giá sản phẩm là doanh số tăng không.

✌ Về mặt trực quan hóa dữ liệu, ta có thể sử dụng các báo cáo, dashboard hay các mô hình để mô phỏng và đưa thông tin tốt hơn.
Ví dụ: chỉ đường thay vì nói rẽ trái rồi đi thẳng 500 mét chú ý đường một chiều thì ta dùng google map.

Đọc thêm về Khám phá dữ liệu

🍀 Nghề và kỹ năng phân tích dữ liệu

✌ Hiện nay có một số nghề liên quan là:
– Chuyên viên phân tích dữ liệu (Data Analyst)
– Chuyên viên phân tích kinh doanh (business intelligence analyst)
– Kỹ sư thiết kế hệ thống dữ liệu (Data Engineer)
– Chuyên viên khoa học dữ liệu (Data Scientist)

✌ Các kiến thức chính khi phân tích dữ liệu là:
– Hiểu biết về nghiệp vụ
– Trực quan hóa dữ liệu
– Cơ sở dữ liệu
– Thống kê
– Mô hình hóa dữ liệu từ OLTP sang OLAP
– Khai phá dữ liệu
✌ Các kỹ năng khi phân tích dữ liệu là:
– làm được công cụ trực quan hóa (Excel, Power BI, Tableu)
– làm được công cụ cơ sở dữ liệu (MySQL, Oracle, Microsoft SQL Server,…)
– Tiền xử lý dữ liệu (Excel, Python,…)
– Quản trị dự án

Data Analyst - Những kỹ năng không thể thiếu cho người mới

🍀 Quy trình phân tích dữ liệu

✌ Định nghĩa nhu cầu phân tích/báo cáo/quản trị
✌ Lên yêu cầu về dữ liệu cho nhu cầu
✌ Khám phá dữ liệu
✌ Tiền xử lý dữ liệu
✌ Xử lý dữ liệu: Mô hình hóa dữ liệu, khai phá dữ liệu, OLAP,…
✌ Kiểm tra khớp với nhu cầu, chưa được thì lặp lại
✌ Báo cáo hoặc đói gói thành hệ thống vận hành

A Step-by-Step Guide to the Data Analysis Process [2021]

🍀 Một số bài toán chính trong khai phá dữ liệu (Data Mining)

Có 4 bài toán chính:
✌ Phân lớp. Ví dụ: nhận dạng vân tay, chữ viết, biển số xe, mặt người, âm thanh. Tự động phân loại văn bản,….
✌ Phân cụm. Ví dụ: phân cụm khách hàng, phân cụm khu vực giao hàng,…
Tham khảo thêm: https://handbook.magestore.com/books/machine-learning-in-retail/page/thu%E1%BA%ADt-to%C3%A1n-k-means-cho-b%C3%A0i-to%C3%A1n-ph%C3%A2n-c%E1%BB%A5m-kh%C3%A1ch-h%C3%A0ng
✌ Dự báo
✌ Luật kết hợp. Ví dụ: gợi ý.

Data Mining Tasks - Tutorial And Example

Trên đây là các nội dung cơ bản Tổng quan phân tích dữ liệu.

Bạn có thể đánh giá trình độ phân tích dữ liệu tại đây để có thêm keyword cho lĩnh vực này.

Bạn cần tìm hiểu về khóa học Phân tích dữ liệu thì có thể đăng ký tại đây.

5 1 vote
Article Rating
Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x