images
07/10/2020 04:40 am

Gấu mèo đi làm Data Scientist - Phần 1

Việc sử dụng dữ liệu để ra quyết định trong kinh doanh rất đa dạng bởi sự khác biệt về mục tiêu, mong muốn, ràng buộc và thậm chí là phụ thuộc vào quan điểm phân tích.

Cũng giống như trong kĩ thuật, nó bao gồm nhiều tác vụ phục vụ cho bài toán kinh doanh. Khi làm việc với các stakeholders, những nhà khoa học dữ liệu phải chia bài toán ra các tác vụ nhỏ hơn. Sau đấy sẽ tổng hợp các giải pháp cho các tác vụ con thành một phương án tổng thể để giải quyết vấn đề chung.


Lần đấy Gấu Mèo được giao phân tích vấn đề về khách hàng rời bỏ tại một công ty viễn thông của UniTelCo. Gấu Mèo hớn hở định dùng model trước đây phân tích cho một công ty viễn thông khác để dùng lại. Thế nhưng đời không mơ! Mỗi nơi có một đặc trưng khác nhau, dữ liệu được tổ chức cũng khác thế nên nó phải sớm bỏ ý định đấy.


Nhưng còn nước còn tát, việc chia nhỏ thành các tác vụ như thế nào vẫn còn dùng được. Và một trong các tác vụ đấy là dựa vào lịch sử khách hàng để ước tính xác suất khách hàng sẽ chấm dứt sau khi hợp đồng hiện tại hết hạn. Thêm vào đấy, dữ liệu của UniTelCo đã được lưu trữ theo định dạng.


Gấu Mèo khẽ mỉm cười 😆. Cậu biết nhiều loại tác vụ con thế này, để có thể chia nhỏ bất kỳ bài toán nào.


Một kĩ năng quan trọng trong khoa học dữ liệu đấy là việc chia vấn đề cẩn phân tích thành các tác vụ nhỏ hơn, những tác vụ mà có thể dùng một phương pháp phân tích cơ bản để giải quyết... Việc nhận diện loại vấn đề và phương pháp giải quyết tiết kiệm được rất nhiều thời gian và công sức, tránh việc phải “phát minh lại cái bánh xe”. Đồng thời nó giúp chúng ta có thời gian tập trung vào những thứ thứ thú vị hơn, nhiều khi đòi hỏi cảm quan, những thứ ko thể tự động hoá được, những thứ phát huy được trí thông minh và khả năng sáng tạo của con người.


Mặc dù có rất nhiều thuật toán khai phá dữ liệu được phát triển trong thời gian qua nhưng Gấu Mèo biết, về cơ bản có thể phân loại thành một số loại thôi. Cái này Gấu Mèo đã note lại rồi nhưng không nhớ để đâu, chỉ nhớ mang máng lần trước mình có dùng cái gì mà “Correlations” để tìm ra yếu tố ảnh hưởng tới việc khách hàng rời bỏ sau hết hợp đồng, hình như nó là một ví dụ cơ bản trong các tác vụ dạng “Classification” và “Regression”. Thế là nó bắt đầu lục tung cả căn nhà.


⏰Hai giờ sau…


Gấu Mèo mồ hôi nhễ nhại, tay cầm một mẩu giấy ố vàng, trên đấy có ghi lại bí quyết mà sư phụ Gấu Chó đã truyền lại cho nó mấy năm trước. Đầu tờ giấy vẫn nét chữ nghuệch ngoạc của sư phụ: Các chiêu thức cơ bản trong phân tích dữ liệu:


1. Classification và class probability estimation


Tác vụ dùng cho dự đoán từng khách hàng, để biết khả năng họ thuộc về nhóm nào: nhóm rời bỏ hay ko rời bỏ, nhóm sẽ mua hàng hay không mua hàng. Các nhóm được chia thường là riêng biệt, không có người nào thuộc hai nhóm một lúc.

Với các tác vụ loại classification, quá trình phân tích sẽ đưa ra một “model” mà đầu ra là nhóm mà nó có khả năng sẽ thuộc vào. Một dạng tác vụ gần giống loại này đó là Probability Estimation hay còn gọi là Scoring.

Thay vì đầu ra là nhóm nào, thì Scoring Model trả về xác suất đối tượng được dự đoán sẽ thuộc về nhóm nào.


Ơ đệt, thế rốt cục với bài khách hàng rời bỏ mình sẽ dùng classification hay scoring đây.


Gấu Mèo buột miệng chửi. Nó lẩm bẩm một hồi rồi nó nghĩ sẽ dùng Scoring bởi vì khác hàng thì nhiều, biết được xác suất ông nào cao thì mình tập trung vào ông đấy thôi, chứ classification hơi chung chung, có khi chăm sóc hết chừng đấy thì mình cũng hết cả thanh xuân. Tạm thế Gấu Mèo lại xem tiếp.


2. Regression (Value estimation)


Nếu như classification có đầu ra là nhóm, thì loại này có đầu ra là số. Nó có thể trả lời cho câu hỏi dạng như khách hàng sẽ đồng ý trả bao nhiêu tiền cho dịch vụ này? Hoặc căn nhà này có giá bao nhiêu?


“Hix bao h mình mới đủ tiền mua nhà. Sư phụ chỉ lấy ví dụ linh tinh, chả thực tế gì cả“, Gấu Mèo nghĩ.


Tác vụ này dựa trên dữ liệu của đối tượng cần dự đoán và xem xét trong lịch sử các đối tượng có dữ liệu khác (đã xác định kết quả) để tính toán. Regression và Classification có liên quan tới nhau nhưng nó là hai loại khác biệt. Trong khi Classification trả lời cho câu hỏi: Whether - có thuộc nhóm hay ko thì Regression trả lời cho câu hỏi: How much - giá trị của biến dự đoán là bao nhiêu ?


3. Similarity matching


Loại này dùng để tìm ra độ giống nhau của một đối tượng so với đối tượng khác dựa trên các thuộc tính của đối tượng. Nó có thể dùng để tìm kiếm các đối tượng tương tự, chẳng hạn như tìm các công ty có tập khách hàng tương đương, hay tìm sản phẩm tương tự. Similarity matching là một trong những phương pháp phổ biến trong việc suggest sản phẩm. (Tìm người giống bạn và suggest cho bạn sản phẩm mà họ yêu thích hoặc đã từng mua).


“À thì ra thế, hèn gì bọn Netflix nó cứ hiện ra mấy phim mình thích. Cơ mà hôm trước xem “The Mood for Love” mà mãi ko thấy suggest phim nào như thế.“


4. Clustering


Cũng hơi giống với Similarity nhưng nó chỉ nhóm các cá thể mà không theo một mục tiêu xác định nào. Thường clustering được dùng lúc ban đầu, khi mà chưa rõ tập khách hàng như thế nào. Ví dụ như khi bắt đầu sản xuất quần áo, bạn có thể dùng clustering để phân nhóm, rồi dựa vào đặc tính của nhóm để ra quyết định về số lượng, size hay màu sắc như thế nào, chúng ta nên sản xuất loại như thế nào?


5. Co-occurrence grouping


Bạn có thể dùng cho việc trả lời câu hỏi như: Những sản phẩm nào khách hàng hay mua cùng nhau? Những sự kiện nào hay xảy ra cùng nhau? Trước khi khách hàng rời bỏ thường diễn ra sự kiện gì?


Đoạn này làm cho Gấu Mèo xoắn não. Mà khi xoắn não thì còn gì tốt hơn là làm một giấc. Gấu Mèo nhanh chóng đi vào giấc ngủ.


Gió hiu hiu, thổi bay tờ giấy mà Gấu Mèo vẫn cầm trong tay…

-------------------

P/S: Mời các bạn đọc Phần 2 - Gấu mèo đi làm Data Scientist.


- Tech Zone -

Thư giãn chút nào!!!

Bài viết liên quan