0

本のどのページ/文がマイクに読み上げられるかを見つけるプログラムを構築しようとしています。私は本のテキストとその音声コンテンツを持っています。ユーザーはランダムなページから読み始め、プログラムはユーザーと同期して、読んでいる本のセクションを表示することになっています。無駄なプログラムに見えるかもしれませんが、ご容赦ください..

シャザムのようなプログラムに似たアプローチは機能しますか? これらのアルゴリズムがスピーチにどれほど効果的かはわかりません。また、話し手は異なり、アクセントがあり、読む速度が異なる場合があります。

もう 1 つのアプローチは、音声をテキストに変換し、書籍内のテキストを検索することです。問題は、本の言語が利用可能な言語モデルがない珍しい言語であることです。さらに、スクリプトはラテン文字を使用していないため、プログラミングが困難になります (少なくとも私にとっては)。

誰もが推奨できる解決策はありますか? 音声ファイルから特徴を抽出し、(マイクから) 抽出された「リアルタイム」の特徴と比較することはできますか? どの機能?

私が始めることができる実装/コードはありますか? どの言語でも構いませんが、C を優先します。

4

1 に答える 1