1번 문제: 데이터 테이블 및 처리
데이터 테이블에서의 사전 처리는 다음을 포함합니다.
- 결측 데이터
- 범주형 데이터
- 수치형 데이터
=> 데이터가 누락되었을 때 어떻게 해결할 수 있습니까?
1번 문제에 대한 해결책:
다양한 인코딩 방법이 있습니다. 그러나 여러분의 모델에 가장 관련이 있는 것은 무엇입니까?
- 서열
- 원핫
- 이진
- 빈도
- 해싱
- 헬머트
- 역차이
- 타겟
- 하나를 빼고 놓기
- 가중치 증거
- 제임스-스타인
- M-추정치
해싱 헬머트 역차이 타겟 하나를 빼고 놓기 가중치 증거 제임스-스타인 M-추정치
그러나 항상 특징에 적용되는 모든 기술을 시도해 보고 어떤 것이 모델에 가장 잘 작동하는지 결정하는 것이 가치가 있습니다.
2번 문제: 대회에서의 순위 매기기
일부 대회 및 광고에서는 순위 결과가 문서 검색, 협업 필터링, 온라인 광고 및 경주 대회와 같은 많은 정보 검색 문제의 중심 부분입니다. 말 경주를 위한 순위 문제와 같은 도표의 실험을 고려할 수 있습니다.
두 번째 문제에 대한 해결책
이 문제에 대해 우리는 다음과 같은 기술적 알고리즘을 사용합니다.
- XGBoost 순위
- LightGB 순위
- CatBoost 순위