Vấn đề thứ nhất: Bảng dữ liệu và xử lý
Việc xử lý trước bảng dữ liệu bao gồm:
- Dữ liệu bị mất
Dữ liệu phân loại
Dữ liệu số
=> Chúng ta có thể giải quyết thế nào khi dữ liệu bị thiếu?
Giải pháp cho vấn đề thứ 1:
Có một số lượng lớn các phương pháp mã hóa. Tuy nhiên, điều gì phù hợp nhất với mô hình của bạn?
- Ordinal
- One-Hot
- Binary
- Frequency
- Hashing
- Helmert
- Backward Difference
- Target
- Leave One Out
- Weight Of Evidence
- James-Stein
- M-estimator
Tuy nhiên, bạn nên thử tất cả các kỹ thuật áp dụng cho tính năng này và quyết định xem kỹ thuật nào phù hợp nhất với mô hình của bạn.
Vấn đề thứ 2: Xếp hạng trong thi đấu
Đối với một số cuộc thi và quảng cáo, kết quả xếp hạng là phần trung tâm của nhiều vấn đề truy xuất thông tin, chẳng hạn như truy xuất tài liệu, lọc cộng tác, quảng cáo trực tuyến và cạnh tranh đua xe. Chúng ta có thể xem xét thử nghiệm trên hình như bài toán xếp hạng cho môn Đua ngựa.
Giải pháp cho vấn đề thứ 2
Đối với bài toán này, chúng tôi sử dụng các thuật toán kỹ thuật có tên
- Xếp hạng XGboost
- Xếp hạng LightGB
- Xếp hạng CatBoost
để giải quyết.