13/01/2026
1 bài mình đã viết lâu, bây giờ có dịp post lại.
Thi đấu ở những cuộc thi AI / data science trên (Google)'s Kaggle là thứ khủng khiếp nhứt. Why?
Thông thường người ta hay khoe mình đạt giải hackathon này kia... nhưng hackathon thường chỉ kéo dài vài giờ, hoặc vài ngày. Tập trung 1 chút là xong.
Data science competition thì RẤT KHÁC. Thông thường nó kéo dài TRÊN 3 THÁNG. Dữ liệu, vấn đề đc các host đưa lên, có khi lên tới hàng TB, nhưng nếu cuộc thi nào data cỡ MB thì vấn đề lại rất khó. Những vấn đề / bài toán luôn gắn liền với cuộc sống thực tiễn, và data cũng thực tế luôn.
Tất cả mọi người trên thế giới đều đc quyền tham gia, ko phân biệt tuổi tác quốc gia. Nói thẳng ra đây là những cuộc thi ĐỀ MỞ HOÀN TOÀN. CHO TOÀN THẾ GIỚI, cho dù anh có cheat, gian lận... cách nào cũng khó lòng. Why?
Bởi vì AI / data science thì ko bao giờ có lời giải chính xác. Khi 1 cuộc thi đc đưa ra, nó sẽ đi kèm với 1 "metric", tức là 1 công thức chấm điểm (như là độ chính xác chẳng hạn). Thông số này sẽ đc chấm dựa trên vô vàn data ẩn mà chỉ có model chính mình build mới "thấy" được khi submit model vào hệ thống. Do đó việc xem trước dữ liệu để giải tay hoặc "gắn nhãn" bằng mắt người là ko thể xảy ra. Hơn nữa, sẽ ko bao giờ có 1 phương pháp nào là tuyệt đối. Độ chính xác sẽ ko thể nào lên đc 100% vì dữ liệu đời thực ko cho phép điều đó. Do đó chỉ có thể cải thiện liên tục nhưng ko bao giờ lên đc sự hoàn mỹ. Các team top đầu sẽ chỉ xê xít nhau 0.00x (tức là mấy chữ số sau dấu phảy thập phân).
Và vì đó là cuộc thi online, nên thời gian ko giới hạn. Anh có thể thức ngày thức đêm để giải, để cải thiện mô hình, để thử nghiệm phương pháp mới. Người chơi sẽ luôn có cảm giác phải CHIẾN ĐẤU ko ngừng nghỉ. Vì nếu ngừng 1 chút, như là nghỉ vài ngày chẳng hạn, thì sẽ tạo cơ hội để các đội khác có nhiều thời gian hơn vượt lên trên bảng xếp hạng.
Đó là lý do tại sao những người xuất sắc trên Kaggle chính là những data scientist / AI scientist giỏi nhứt thế giới. Những con hàng "top" đều đc tuyển vào những vị trí đẹp ở những công ty xịn nhứt, như NVIDIA chẳng hạn. Còn nếu ko thì các start-up sẽ trả lương rất cao cho họ. Cuộc thi nào cũng sẽ xuất hiện vô số những người kiệt xuất mới toanh với những phương pháp độc đáo khác nhau (và rất phức tạp).
Bây giờ trên mạng bạn có thể tìm thấy hàng triệu triệu người làm / học trong lĩnh vực AI, nhưng để tìm ra hàng top Kaggle thì chỉ có vài trăm người. Ko phải vì đa số người ta ko có thời gian hay ko thích chơi, mà vì QUÁ KHÓ để lọt đc vô top 10 ở bất kì 1 cuộc thi nào! Người chơi phải hội đủ nhiều yếu tố: mạnh statistics, mạnh math, mạnh khả năng code (các top solution thường dài hơn 10K dòng code), cập nhật những model mới, phải lãnh hội đc cái gọi là "cảm giác về thống kê", và phải đủ yêu thích để theo đuổi. Do đó tuy cộng đồng 200K accounts trên đó thì chỉ 1 số hiếm chơi competition đều đặn, còn số đông còn lại là contribute cho các datasets hoặc notebooks mà thôi.
Hơn 8 năm chinh chiến trên đây, những thành tích ở các cuộc thi data science/ AI chính là thứ giúp mình có đc tất cả những thứ bây giờ: công việc, nhà cửa, vợ con, sự quen biết trong cộng đồng... Tuy nhiên, sự đánh đổi cũng khá lớn. Nhiều đêm miệt mài ko ngủ, nhiều lần mất huy chương phút chót sau mấy tháng trời... và nhiều cọng tóc bạc.
8 năm, 34 cuộc thi (10 hc vàng, 12 hc bạc), mấy chục ngàn giờ trên máy. Chưa có vấn đề nào mình chưa trải qua, từ quantum physics, quantum chemistry, computer vision, time-series, NLP, tabular data, pure math optimization, LLMs, hay ARC prize... mỗi thứ có 1 độ khó khác nhau đòi hỏi người chơi giỏi 1 mảng khác nhau.
Có người rất giỏi về build deep learning model cho các task computer vision, nhưng ko thể chơi time-series hay tabular data. Hay có người chuyên môn về các cuộc thi ít thiên về statistics và thiên về optimization nhìu hơn... Tất cả tập hợp lại thành 1 cộng đồng mở rất lớn với hơn 200K người.
Ngoài công việc chính thức ra (cũng nặng), mình phải tìm thời gian để đầu tư riêng cho những thứ này. Nếu ko mình sẽ bị tụt hậu dần dần. Chỉ có những chiến trường, nơi có kẻ thắng người thua, có sự khốc liệt, có mật ngọt và cay đắng, mới khiến người ta mạnh mẽ hơn.
Đã gần 6 tháng mình ko nghỉ ngày nào để tìm 1 hc vàng solo mới. Thực sự rất khó. Sự kiên trì, quyết tâm phải đạt tới đỉnh điểm thì mới thành công được. Bởi vì ai ai cũng vậy. Cuối cùng thành công hay ko thì lại là chuyện khác. Nhưng ko vì sợ mà ko dám làm.
2 tháng nữa mình sẽ đc nghỉ bớt và thoải mái 1 chút. Nhưng bây giờ thì chưa thể. Code base mình build cho cuộc thi lần này đã lên tới 50K dòng rồi..., quá nhiều... nhưng đã phóng lao thì phải theo, ko còn đường lui. Nếu ko đc, thì lại tốn mấy tháng để thử lại tiếp.
Đợi 1 dịp khác, mình sẽ viết về công việc professional chính thức của mình, chắc còn thú vị hơn nhiều lần.