課題:
ソーシャルプラットフォーム上のデータは毎日増え続けています。
このようなデータを使用して、FacebookやTwitterで毎日、または毎時間「何が起こっているのか」を発見することができるでしょうか?
この問題に対して、トピックモデリングを使用することができます:
- 入力:特定の時点でのベトナムの人気ファンページのFacebook投稿のデータセット
- 出力:その時点でベトナムのFacebookで最も人気のあるトップトピックとそれに関連するキーワードのセット
ソリューション:
この問題に対して、LDA(Latent Dirichlet Allocation)トピックモデリング技術を使用します。
LDAは、コーパス(ドキュメントの集合)内のトピック分布のパターンを見つける確率モデルです。
結果:
2019年10月、ベトナムのFacebookユーザーが最も話題にしていたトピックは次のとおりです:
また、ファンページをベクトル化し、類似性を比較することもできます
以下は、2019年10月のコンテンツに基づくページ間の比較です。四角形がより青いほど、2つのファンページはより類似しています
チャンス:
適切なクローラーと改良されたトピックモデリング技術を使用することで、Facebookや他のソーシャルネットワーク上のホットなトピックを毎時間、または毎秒追跡することができます。