第1課題:データテーブルと加工
データテーブルの前処理として、以下のものがあります。
- 欠測データ
- カテゴリカルデータ
- 数値データ
⇒ データが欠測している場合、どのように解決できるでしょうか?
第1課題に対するソリューション:
エンコーディング方法は非常に多岐にわたります。ただし、モデルに最も関連性のある方法は何でしょうか?
- オーディナル
- ワンホット
- バイナリ
- 頻度
- ハッシュ法
- ヘルマート
- 後退微分法
- ターゲット
- リーブワンアウト
- 証拠の重み
- ジェームス・スタイン
- M推定器
ただし、すべての技術を特徴に適用してみて、どの手法が自分のモデルに最も適しているかを判断することは、常に価値があります。
第2課題: レースにおけるランキング
一部のレースや広告では、ランキング結果がドキュメント検索、協調フィルタリング、オンライン広告、レーシング競技などの情報検索問題の中心的な要素となります。競馬のランキング問題のような実験を考えることができます。
第2課題のソリューション:
この問題には、次のような技術的なアルゴリズムが使用されます。
- XGboostランキング
- LightGBランキング
- CatBoostランキング
これらの手法を使用して解決します。