課題:
話者認識(Speaker recognition)は、音声波形に含まれる話者固有の情報を使用して話者を自動的に識別するプロセスであり、人々がシステムにアクセスする際に主張される身元を検証するために使用されます。つまり、音声によるさまざまなサービスのアクセス制御を可能にします。
話者検証(スピーカー認証とも呼ばれる)は、識別(identification)とは対照的です。
話者認識:
2段階の話者認識: 登録と検証
話者を検証する前に、ユーザーに自分の声を登録してもらう必要があります:
話す:
「 Hello」と3回言う
ランダムな文字列を2回言う
平均埋め込みベクトルをデータベースに保存し、話者認識に使用します。
ソリューション:
埋め込みベクトルを作成するための一般化されたエンドツーエンドの損失:
コサイン類似度の閾値による検証判定: