images
12/10/2020 07:42 am

Gấu mèo đi làm Data Scientist - Phần 8: Outlier - Anomaly Detection - Part 1

Anomaly Detection - tìm kiếm điểm bất thường của một tập dữ liệu thường được dùng khi clean dữ liệu nhưng với Gấu Mèo thì ứng dụng của nó rộng hơn rất nhiều.


Khi khách hàng có một sự bất thường trong hành vi mua hàng thì đấy là khi họ có một nhu cầu mới. Rất nhiều trường hợp đấy chính là Point Of Purchase (hay Point Of Sale). Thậm chí nó cũng có thể dùng để sớm phát hiện khách hàng rời bỏ.


Và cũng có lần Gấu Mèo nhờ việc phát hiện bất thường trong hành vi của khách hàng (Số người vào giảm đột ngột) mà biết được hệ thống đang bị lỗi để sớm fix. Sau vụ đấy thì khối IT còn đưa nó vào hệ thống monitor luôn. 


Vậy thì dạng dữ liệu thế nào thì phù hợp với Anomaly Detection?


Thực ra thì dạng dữ liệu nào thì cũng có thuật toán tương ứng, tuy nhiên Gấu Mèo dùng nhiều nhất là các dữ liệu theo phân phối chuẩn (Normal distribution), mà đặc biệt là các dữ liệu time series (Bởi vì dữ liệu dễ tìm và phương pháp phân tích cũng không quá khó). Có mấy dữ liệu khá phổ biến gần như biz nào cũng có, để bạn có thể thử:


- Web page views

- Daily active users

- Mobile app installs

- Cost per lead

- Cost per click

- Customer acquisition costs

- Bounce rate

- Churn rate

- Revenue per click

- Volume of transactions

- Average order value


Còn nếu như bạn chưa có hệ thống tracking thì bài viết trước của Gấu Mèo có hướng dẫn để xây nhanh một hệ thống tracking, bạn nhớ xem nhé.


CÁC LOẠI OUTLIER - ANOMALY:


1. Global outliers

Bất thường này là bất thường so với toàn bộ dataset. Ví dụ như giá trị đơn hàng cao hẳn hay thấp hẳn so với bình thường.


2. Contextual outliers

Hay còn gọi là conditional outliers. Trường hợp giá trị của field đang xét tới vẫn là bình thường nếu so theo tiêu chí Global outlier nhưng lại bất thường nếu kèm theo một trường khác. Ví dụ vào thứ 2, Daily active users bằng 50 000 là bất thường (so với các ngày khác thì bình thường).


3. Collective outliers

Loại này xét trên một tập nhỏ các điểm trong toàn dữ liệu thay vì từng điểm riêng biệt. Ví dụ doanh thu 1 ngày 2000-2500$ thì bình thường, nhưng doanh thu 5 ngày liên tiếp là 2000-2500$ là bất thường.


Mời các bạn đọc lại bài Gấu mèo đi làm Data Scientist - Phần 7: Co-occurrences and Associations: Finding Items That Go.


- Tech Zone -

Thư giãn chút nào!!!

Bài viết liên quan