c# - 言葉の境界のためのオーディオマイニング

Question

私がやろうとしていること：

英語のアクセントを（専門的な訓練なしで）開発したい。

エグゼクティブサマリーによる私の推論の背後にある公理のセット：

以下は、故意に単純化しすぎています。申し訳ありません。私は質問を短くしようとしました。

パート1：学習の仕組みを理解する。

現時点では、ブローカ野とウェルニッケ野は言語を認識している必要があり、既存の音声アルファベットによる筋肉の記憶がスピーチを構築すると思います。アクセントは、音のアルファベットの同化によって時間の経過とともに自然に形成されます。

エリア

Googleを使用して、音声シャドウイングが音声記号の同化に使用できる可能性があることを発見しました。一方、筋肉の記憶は、反復的な行動によって簡単に訓練することができます。そして、これは、23〜24歳で、集中力を失うと効果的な学習曲線の勾配が劇的に減少する可能性があるため、手に解釈できない時間がたくさんある場合に最も効果的です。この種の手続き記憶は、おそらく、設計されたスリープパターンでメモリにフラッシュするように最適化できます。

パート2：行動パターンの設計

アクセントになりたい流暢なスピーカーを探す。
ターゲットアクセント音素と電話を区別します。
ターゲットのアクセントを生成するために筋肉の記憶をトレーニングします。

パート3：私が聞こえたいアクセントの流暢なスピーカーを見つける。

Youtubeは強力な無料のリソースです。サンプルオーディオ、私が選ぶのが難しい： -HDの Someone Like Youアデル（カバー）。

高音の女性の声だと気になりません。

パート4：ターゲットアクセント音素と電話を区別する。

それは簡単な作業ではありません-話された電話が正しいかどうかを識別して判断します。そして、具体的なテキストが人間によってどれほど正しく話されているか。実際には非常に複雑に見えるので、わざわざ自動化せず、ベースラインとしてIPAを使用します。

上記のサンプルオーディオのアメリカのIPAでの単語ストレスのある最初の詩篇は次のとおりです。 IPA

著作権の侵害は意図されていません。そして、画像はupodn（代替：photransedit）で作成されます。

パート5：ターゲットアクセントを生成するための筋肉記憶のトレーニング。

同期を模倣してアーカイブするのは楽しいことですが、単語を音声ファイルとして抽出するツールを作成することをお勧めします。したがって、winampまたはipodを使用して、必要な単語をループおよびシャッフルできます。

これにはMS式エンコーダーを使用できると思います。

質問

オーディオファイル（例：wav形式、サイズ<32mb）とそれに相当するテキスト（有限の単語数、例：2000）が与えられた場合、それを複数のファイルに分割する方法。それぞれに1つの単語が含まれます。Wordには余分な空白を含めることができ、境界チェックはユーザーが承認できます。正確でない場合は、単語の境界を適切に推定するための最良の方法は何ですか。

主な目的は、これが手動で行われる場合、私が行うであろう作業を減らすことです。

score 1 · Accepted Answer

単語の境界を検出することは非常に複雑な作業です！これをもっと調べたかどうかはわかりませんが、Saffran et al。、（1996）を参照してください。単語のセグメンテーション：分布の手がかりの役割。また、多くの言語の言語生成の「コーパス」がたくさんあるので、新しい人を使用するのではなく、単語の境界の検出に関する言語学の文献ですでに行われていることを調べます。

score 0 · Accepted Answer

まず、FFT を実行して信号を時間領域から周波数領域に変換します。これにより、テキスト内の特定の子音を fft 内の広帯域ノイズに一致させることができます。ここで重要なのは、完全な音声認識をしようとしているのではなく、信号とテキストの最適な一致を見つけようとしているということです。（私が大学にいたとき、文書画像の強調表示に似たようなことをしました-すでにテキストを持っていたので、OCRに頼る必要はありませんでした）。私の推測では、いくつかの単語が互いにぶつかり合うため、振幅のディップを探してもあまり役に立たないでしょう。

最初の試みでアプローチする方法は次のとおりです。

テキスト/IPA を分析して、子音で始まる単語が周波数スペクトルで簡単に識別できるパターンになるようにします。
高いしきい値から始めて、パターンのインスタンスを検出します。
適切な数のインスタンスが得られ、それらの間の相対距離がテキストからの推定距離と一致するまで、しきい値を下げます。
（可能であれば、ここで分割ポイントのユーザー認証を取得してください）
これにより、うまくいけば短いフレーズとスペクトルのブロックのセットが得られるはずです。
別の特徴検出方法を使用して、これらのブロックを単語に分割します。
単語が 1 つだけになるまで続けます。

それは一般化できると確信していますが、それが私が試みる方法です。