Tổng kết: Quản trị số liệu
Trong bài viết này chúng ta tìm hiểu sâu hơn về quản trị dữ liệu số với các khái niệm Phân tích, Hệ thống dữ liệu và số liệu
CÁC MÔ HÌNH THAM KHẢO TRONG QUÁ TRÌNH XÂY DỰNG HỆ THỐNG PHÂN TÍCH DỮ LIỆU

Đầu tiên, để xây dựng được hệ thống phân tích dữ liệu hữu ích cho doanh nghiệp của mình thì mình cần hình dung được luồng nghiệp vụ (Business flow) của đơn vị mình.
Luồng nghiệp vụ này có thể lấy khách hàng hay sản phẩm làm đối tượng trong quá trình vẽ.
Dưới đây là một sơ đồ luồng nghiệp vụ tham khảo
Trên mô hình ta có thể phân vùng theo các bộ phận hoặc các hệ thống CNTT.


Sau khi hình dung được tổng thể nghiệp vụ, ta đi đến mô hình cho phép ta nhìn thấy được các hệ thống CNTT và sự trao đổi dữ liệu của các hệ thống đó.
Ta gọi là luồng dữ liệu (Data flow)
Dưới đây là một sơ đồ luồng dữ liệu tham khảo


Tiếp theo, đã xây dựng kiến trúc của hệ thống phân tích dữ liệu cho chính đơn vị của mình.
Hệ thống này có nhiều cách thiết kế. Trong trường hợp đơn giản ta chia làm 4 vùng:



Ta liệt kê các dimension, fact ở đây hay tổng quát hơn là data model hay tên các kho chủ điểm dữ liệu (Data mart)

Dưới đây là một mô hình tham khảo

CÁC LỚP DỮ LIỆU
Để đi sâu hơn vào dữ liệu của hệ thống cũng như quá trình hình thành dữ liệu ta tách thành các lớp dữ liệu.


Khi thực hiện một công việc cần có chứng cứ để xác định. Chứng cứ này có thể là bản cứng hoặc bản mềm.



Trong mỗi chứng từ sẽ gồm nhiều loại giao dịch khác nhau.





Thực tế, sẽ có những loại giao dịch có sẵn trên chứng từ. Có những loại giao dịch cần phân bổ ra để phân tích.

Mình muốn phân tích hiệu quả chi phí của theo dự án mà nhân viên A làm ở hai dự án.
Vậy mình cần tách/phân bổ dữ liệu lương thành 2 dòng như nhân viên A làm dự án X 10 triệu. Nhân viên A làm dự án Y 25 triệu.


Các loại giao dịch sẽ lần lượt lưu trữ vào các loại sổ khác nhau.

Các loại sổ này có thể sổ giấy, các sheet trong Excel, hay các bảng trong cơ sở dữ liệu.







Từ các sổ giao dịch này ta sẽ làm các thống kê/tổng hợp/báo cáo dữ liệu.
Đó chính là các báo cáo đơn giản mà các doanh nghiệp hay sử dụng.
Trong Excel thì ta sử dụng các hàm thống kê như sum, sumif, countif,..
Rồi tiến tới dùng các công cụ như Pivot table
Trong lập trình thì sẽ sử dụng các hàm.
Ở tầng này, ta có thể sử dụng các công cụ mạnh như Pivot Table và cảnh báo màu (Conditional formatting).

Nhóm tính toán hầu hết chỉ có: sum, count, average, min, max là chính.
Gợi ý: khi ta có thể đọc các báo cáo hiện nay của doanh nghiệp để xác định được các dim & fact.
Lớp dữ liệu ở tầng tổng hợp thì chưa hiệu quả cho việc phân tích dữ liệu.

Doanh thu tháng trước 1 tỷ với tháng trước 3 tỷ thì phân tích sẽ khác
Doanh thu kế hoạch là 3 tỷ và 1 tỷ thì phân tích sẽ khác.

Ở tầng phân tích thì chúng ta sẽ có một số hướng dẫn sau:









Khi phân tích thì ta phân tích từ dòng sản phẩm rồi xuống nhóm sản phẩm từng dòng rồi xuống sản phẩm của từng nhóm.

Có nhiều gợi ý để cho dashboard khoa học và dễ dàng phân tích.
Dưới đây là một số gợi ý.


Tỷ lệ là tỷ lệ chuyển đổi giữa các công đoạn hay trạng thái. Ta vẽ quy trình rồi định nghĩa các trạng thái và mã hóa thì sẽ có các báo cáo tỷ lệ.



Tỷ trọng là tỷ trọng tại một khâu của quy trình.





Căn cứ vào dữ liệu phân tích sẽ ra các phương án, quyết định để triển khai trong thực tế.
QUẢN TRỊ DỮ LIỆU SỐ

Khi làm việc với số liệu ta cần biết số liệu cần có đơn vị tính.
Đó là điều đầu tiên để số liệu có nghĩa thông tin.
Như 1000 có thể là 1000 sản phẩm hay 1000$ hay 1000 VNĐ. Bản thân số 1000 không có ngữ nghia phân tích.
Trong các đơn vị tính thì số liệu còn có một đơn vị tính là thời gian.
Có hai loại đơn vị tính thời gian là từ ngày-đến ngày và tại ngày.









Các loại tỷ lệ, tỷ trọng thì bản chất cũng là lấy số A/Số B nên A và B cũng có đơn vị tính thời gian.

Khi ta quan tâm tới hiệu quả của hoạt động bán hàng thì sẽ có một chỉ số gọi là tỷ lệ chuyển đổi khách hàng.
Tỷ lệ chuyển đổi khách hàng = Số khách hàng mua hàng/Số khách hàng đăng ký.
Thông thường ví dụ phân tích tỷ lệ chuyển đổi khách hàng tháng 8 ta sẽ:
Lấy số khách hàng mua hàng trong tháng 8.
Lấy số khách hàng đăng ký trong tháng 8.
Rồi chia cho nhau.
Sau đó ta lấy tỷ lệ này so trong các tháng với nhau.
Tuy nhiên, thực tế có những khách hàng trong tháng 8 đến từ các khách hàng đăng ký tháng 7, 6.
Và ngược lại có những người đến tìm hiểu tháng 8 sẽ mua trong tháng 9.
Thế nên trong trường hợp có những chiến dịch quảng bá vào tháng 8 mà khách hàng đến rải rác vào các tháng thì công thức trên không đúng.
Khi đó ta cần:
tỷ lệ các khách hàng mua hàng đến từ các khách hàng đăng ký tháng 8.
Khi đó số lượng khách hàng mua hàng là dạng số liệu tại ngày vì tại ngày 31/8; 30/9;31/10 là các số khác nhau.

Từ đó, ta có phương pháp để phân tích theo vòng đời gọi là cohort-analysis giúp ta phân tích tỷ lệ của những quy trình mà có vòng đời dài.

















Đủ (Khối lượng): sản xuất được bao nhiêu đơn hàng
Đỏ (Chất lượng): Tỷ lệ sản phẩm lỗi là bao nhiêu
Đẹp (Tiến độ): Có sản xuất được trong thời gian ngắn hơn không.

Đủ: có đủ doanh thu theo kế hoạch không
Đỏ: có các điểm nóng về doanh thu, khách hàng phản hồi hay trả lại nhiều không
Đẹp: Doanh thu vượt kế hoạch, khách hàng có phản hồi tốt hay giới thiệu không.

ỨNG DỤNG CÁC NGUYÊN LÝ XÂY DỰNG HỆ THỐNG CNTT

Ta xem xét hệ thống dữ liệu như một hộp đen.
Mình viết input là các nguồn dữ liệu. Output là các yêu cầu phân tích.
Từ đó ta thấy được sự hợp lý giữa đầu vào và đầu ra.

Ta cần nấu món cần xào bò (output)
Mà intput có rau muống với thịt lợn thì dù ta chưa biết nấu ăn ta đã biết nó chưa hợp lý.

Sau khi xác định được input-output hợp lý, ta sẽ đến các bước để xử lý được từ input ra được output.
Nếu việc phức tạp ta chia nhỏ thành các việc con để đơn giản dần rồi xử lý.
Sau đó đến công doạn đóng gói. Ta thêm các nội dung tham số hóa để hệ thống linh hoạt hơn và đóng gói hướng dẫn sử dụng.

Một cái quạt thì input là điện và output là gió. Process là quá trình biến đổi từ điện thành gió.
Tham số hóa là:



Rõ ràng một hệ thống khi có tham số hóa sẽ trở nên thông minh hơn. Đây là điều mà ít người để ý.



Trong CNTT hay sử dụng mã hóa để giúp giao tiếp nhanh hơn và bớt sử dụng não suy nghĩ nhiều không cần thiết.





Thì sẽ rất nhiều loại số lượng và ta mã hóa thành
D1->D2->D3->D4 ứng với đặt hàng->đồng ý giao->thanh toán->hủy.
Rồi khi báo cáo ta hỏi D1 bao nhiêu. Tỷ lệ D4/D1 bao nhiêu sẽ nhanh gọn hơn và không bị nhầm lần.





Thì sẽ rất nhiều loại báo cáo doanh số nhau và khó phân loại.
Ta quy ước là doanh số là DS. Rồi 100 là tổng 200 khu vực, 300 dòng sản phẩm, còn 00 là năm, 10 là quý rồi 20 là theo tháng.
Thì khi đọc DS120 là mình biết doanh số tổng theo tháng. DS210 là doanh số theo khu vực từng quý.
Tương tự với đặt mã hóa theo nhóm người sử dụng, bộ phận,…
Ta cũng có thể mã hóa màu để phân vùng đơn giản như trong 1 file excel.
Màu đỏ là input
Màu xanh là output
Màu vàng là hướng dẫn sử dụng
Màu tím là tham số, cấu hình
Khi đó, mới nhìn vào 1 file excel, 1 link google sheet là ta đã phân vùng các sheet để xử lý cho đơn giản rồi.
Đọc thêm và Data Exploration – Khám phá dữ liệu