ID3V2 タグから mp3 の歌詞を取得する Android アプリを作成しようとしています。私の質問は、曲の再生時に歌詞を自動的に強調表示することは可能ですか? 音声処理などを使用するようなものです。以前の同様の質問を調べましたが、すべて手動で入力する必要があります。できるだけ早くフィードバックが必要です。ありがとうございました。
2 に答える
ハリウッドの映画セットでは、4 ピクセルの正方形を入力として顔を再構築する画像処理と同様の技術を使用して、この種のことが可能です。
さて、あなたの要求は理論的にはより実現可能ですが、私が知っている現在の電話技術では、その場でこれを行うことはできません. デロリアン、フラックスコンデンサ、プルトニウムが必要になる場合があります。
また、音楽を介してボーカルを検出することは、携帯電話にテキスト メッセージを話しかけるよりもはるかに難しい問題です。
- 歌われた歌詞は通常、自然な発話のリズムには従いません。
- 音楽の周波数スペクトルは、声の周波数スペクトルと矛盾する傾向があります。
- 声のピッチはさまざまであり、音声特徴を分離して検出することははるかに困難です。
- 多くの場合、ボーカルは他のすべての楽器と同じレベルでミックスされます。
- IwannahuhIwannahuhIwannahuhIwannahuhIwannaReallireallirealliwannaZigaZiggUHH.
この論文LyricSynchronizer: 音楽オーディオ信号と歌詞の間の自動同期システム を見て、可能な解決策を見つけてください。Java for Android には何も実装されていませんが、NDK を使用すると、任意の C コードを取得して動作させることができます。;-)
この論文では、ポリフォニック音楽オーディオ信号を対応する歌詞と自動的に同期できるシステムについて説明します。ビタビ アラインメント技術を使用してモノラル音声信号と対応するテキスト トランスクリプションを同期させる方法が提案されていますが、これらの方法は CD 録音のボーカルには適用できません。そこで、伴奏音の影響を軽減する従来の手法に加えて、発声区間の検出手法、ロバストな音素ネットワークの構築手法、摩擦音の検出手法、摩擦音の検出手法の 4 つの手法を開発しました。音声認識電話モデルを分離された音声信号に適応させるため。
実装の幸運を祈ります!