images
07/10/2020 05:07 am

Gấu mèo đi làm Data Scientist - Phần 3

Nó đọc tới chương tiếp thì mở cờ trong bụng. Chương này nói tới quy trình khám phá dữ liệu. Phần này nó biết, nhưng chưa thực sự rõ, mấy hôm nay nói cho bọn team member mà chúng nó chưa hình dung được

Fat Black Cat đang nhâm nhi ly sữa thì bị Gấu Mèo hét vào mặt:

- “Sao anh lại trộm tờ bí quyết của em?”

- “Ờ, rồi sao?”


Gấu Mèo điên tiết nhưng không biết làm thế nào. Sao lũ người đểu này có thể trơ trẽn đến thế, sao mà khó sống tử tế quá vậy...

Mặc Gấu Mèo sao với trăng, Fat Black Cat không thèm nhìn. Hắn ngáp rõ to, gãi gãi bụng rồi lôi một quyển sách chìa trước mặt Gấu Mèo.

- “Đọc đi rồi tính sau”


Hắn nói xong lại ngáp ngáp, rồi lăn ra ngủ. Gấu Mèo đang điên, nhưng vẫn mở sách. Tại cái tựa nghe cũng cuốn hút: “Data Science for Business”. Hình như lão Fat Black Cat mua trên Amazon.


Nó tò mò đọc vài trang đầu rồi ngớ người ra: “Sư phụ ơi là sư phụ, hoá ra sư phụ chép sách ra à, thất vọng quá!!”

Nó đọc tới chương tiếp thì mở cờ trong bụng. Chương này nói tới quy trình khám phá dữ liệu. Phần này nó biết, nhưng chưa thực sự rõ, mấy hôm nay nói cho bọn team member mà chúng nó chưa hình dung được:


📌Business Understanding


Data Analysis hay AI đâu phải là thánh, nó chỉ là cái công cụ thôi, muốn giải quyết vấn đề thì trước tiên phải hiểu vấn đề, phải clear câu hỏi trong đầu đã. Cái này thì Gấu Mèo thấm. Như cái vụ khách hàng rời bỏ kia, nghe thì dễ nhưng mà khách hàng thế nào thì gọi là rời bỏ. 1 tháng không sử dụng, 2 tháng không sử dụng sản phẩm hay như thế nào. Hỏi sếp thì sếp ừ à một lúc rồi phán bừa 2 tháng không dùng.


Rồi ngay như việc chọn trường gì để làm đầu vào cũng phải nghĩ chứ. Trường có thì không nói làm gì, trường không có, để mà tracking được có khi mất cả mấy tháng, đấy là khi mấy lão lập trình viên vui tính, còn không chả biết bao giờ.


Gấu Mèo vẫn thích bước này nhất bởi vì đây là bước nó có thể phát huy tối đa khả năng sáng tạo. Nó vẫn thường dùng cách chia nhỏ vấn đề như hôm trước đã đề cập để dùng trong bước này. Kinh nghiệm của nó ở bước này là nên suy nghĩ một cách cẩn thận về Use Scenario. Nó luôn tự hỏi nó thực sự muốn cái gì? Nó cần model chính xác thế nào? Những phần nào trong Use Scenario có thể mô hình hoá được.


Nó nghĩ bụng sẽ search lại vài conceptual tool, cái đấy sẽ giúp được nó giải quyết phần này một cách có hệ thống hơn. Thế mới dễ ăn, dễ nói, dễ trình bày.


📌Data Understanding


Gấu Mèo vẫn ngạc nhiên khi thấy mấy ông là data scientist rồi mà cắm đầu cắm cổ làm model luôn, không chịu tìm hiểu về data như thế nào. Dữ liệu về khách hàng, các giao dịch, các sự kiện người dùng, survey… thường được lưu khá hỗn độn, mà không phải lúc nào cũng chính xác. Thế nên trước khi tạo model, nó vẫn thường visualize dữ liệu lên, xem có đoạn nào bị miss hay bất thường không. Rồi còn phải tính toán cost khi thực hiện lưu data nữa chứ. Có khi mất cả đống tiền để đi collect cái dữ liệu không dùng làm gì.


📌Data Preparation


Data dành cho việc model lấy từ nguồn lưu trữ mà các ứng dụng của công ty ghi vào. Thế nhưng để có thể dùng được thì Gấu Mèo cũng hết hơi với nó.


Thường data phải convert và xoay chiều theo nhiều kiểu khác nhau để thành đầu vào như model. Như cái việc xác định khách hàng nào là rời bỏ, Gấu Mèo cũng mất cả mấy tiếng để chuyển từ dữ liệu khách hàng thành 2 class là rời bỏ và không rời bỏ.


📌Modeling


Hầu hết mọi người nghĩ đến Data Mining là nghĩ ngay tới quá trình này. Bởi đây là quá trình trực tiếp đưa ra hàm dự đoán. Đoạn này nói suông với các team member sợ bọn nó hiểu không kỹ, Gấu Mèo định bụng sẽ viết code, giải thích trên đấy luôn, may ra mấy ông tướng mới hiểu.


📌Evaluation


Đây là bước cực kỳ quan trọng. Phải đánh giá được mô hình thì mới biết được có dùng nó trong thực tế được hay không và dùng như thế nào.


Mới hôm trước trong team của lão Fat Black Cat còn có đứa đứng lên tuyên bố mô hình nó dự đoán chính xác tới 99%. Lịch sử có 1000 ông khách hàng, 10 ông rời bỏ, chỉ cần dự đoán “không có ai rời bỏ cả” thì cũng đã chính xác tới 99% rồi chả cần mô đồ mô điếc gì cho mệt. Cái kiểu chính xác đấy thì chỉ để loè mấy con gà như sếp thôi, chứ làm sao mà dùng được để giảm tỉ lệ rời bỏ.


Còn mấy cái đứa team nó thì cứ thích kĩ thuật, đưa vào Neural Network rồi tới lúc trình bày với sếp thì sếp chả hiểu gì. Đến mệt.


Mỗi bài toán cách đo nó khác, thế nên Gấu Mèo cũng định bụng sẽ có một hôm nói thật kĩ vấn đề này với các member của nó.


📌Deployment


Gấu Mèo vẫn đau đầu ở chỗ này. Team nó hay viết trên Jupyter rồi báo cáo sếp. Thế nhưng đội sale thì có cả trăm người, nó vẫn trăn trở để đưa các kết quả phân tích riêng cho từng tập khách hàng riêng của nhân viên sale. Mà muốn thế thì phải xây hệ thống phân tích và public được kết quả ra cho nhân viên sale truy cập. Quan trọng nhất là phải đưa vào được quy trình chăm sóc thực tế mới có hiệu quả.


Lão Fat Black Cat pro đoạn này, thế nhưng không thể ưa nổi cái kiểu tưng tửng, vô trách nhiệm của lão ấy, mình mà hỏi thì cũng nhục mặt.

….

Fat Black Cat tỉnh giấc. Nó lại cuộn tròn, lăn mình tới cái ly sữa rồi lười biếng liếm từng hớp. Hôm qua khi định mang sách cho Gấu Mèo thì tự nhiên một tờ giấy bay từ phòng Gấu Mèo đập vào mặt. Kỳ lạ cái là nó giống y phần đầu quyển sách nó định đưa.

“Cho thanh niên nghiêm túc kia một vố thì cũng vui”

Nghĩ thế nên nó phủi mông quay về, không đưa sách nữa.


Nghĩ lại cái mặt thằng bé hôm nay nó cũng không khỏi buồn cười. Có lẽ phải thêm vài vố nữa mới vui. Nó sung sướng với cái ý nghĩ đấy và nốc một phát hết cốc sữa.

--------------------

P/S: Gấu Mèo sẽ code phân tích như thế nào? Fat Black Cat sẽ còn làm trò gì nữa, các bạn nhớ đọc Phần 4 - Gấu mèo đi làm Data Scientist nhé.


Mời các bạn đọc thêm Phần 2 - Gấu mèo đi làm Data Scientist.


- Tech Zone -

Thư giãn chút nào!!!

Bài viết liên quan