問題タブ [htk]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c++ - 隠れマルコフ モデル - C++ でのパラメーター結合の実装
隠れマルコフ モデルでのパラメーターの結合は、基本的に、HMM の複数の論理パラメーターをいくつかの物理パラメーターにマッピングして、計算を減らして制約を適用することです。
したがって、パラメーター (状態、GMM、平均ベクトル、共分散行列、遷移行列、ストリームの重みベクトル、期間パラメーター ベクトルなど) が HMM を表すオブジェクトのフィールドである場合、これらはいくつかの物理コピーにマッピングされます。たとえば、HMM セット内の任意の 2 つの状態は、同じ出力確率分布を持つことができます。
HMM の構文表現とそれらの間のパラメーター結合が必要であり、それらを解析してそれらから HMM オブジェクトを構築する必要があります。
(可能であれば) C++ 言語の機能を使用して、これらのパラメーターを結び付ける素敵でエレガントな方法は何でしょう か?
編集
生のポインターは絶対にオプションではありません。のような C++ ポインター型を調べていshared_ptr
ますが、可能であればそれらも避けたいと思います。また、C++ 参照によって機能が制限される可能性があるようです。
nlp - カスタム言語用の TTS (テキスト読み上げ) システムを設計するためのツールキット?
ネイティブ アメリカン言語 (ワユナイキ) 用の TTS システムを作成したいと考えています。言語はラテン(西洋)アルファベットで書かれています。また、音声学 (各単語を IPA 記号に変換する規則) に関する情報もあります。
先住民の音声録音のデータベースを作成する予定です。次に、IPA の同等性情報を使用して、より正確な音声モデルを生成し、そのデータを何らかの方法でトレーニングしたいと考えています。
私は自然言語処理にまったく慣れていないので、私の質問は..計画を実行するためにどのツールを使用できますか?
HTK と CMU Sphinx は音声認識が非常に優れていると聞いたことがあります。音声生成についてはわかりません。フェスティバルについても聞いたことがありますが、英語、スペイン語など、定義済みの最もよく知られている言語のみを使用していると読みました。
私のタイプミスを許してください。私はまだ英語を学んでいます。前もって感謝します!
python - 初期化中...コマンド 'sox' がゼロ以外の終了ステータス 2 を返しました
同様のエラー メッセージの質問を確認しましたが、私の状況にぴったり合うものは見つかりませんでした。HTK、Prosodylab-aligner、および SoX を使用して、.wav ファイルを .lab ファイルと時間調整しようとしています。
これが私の入力です(Prosodylab-alignerを使用):
表示されるのは、次のコード行だけです。
このコードの意味を調べたところ、コマンドまたはキーワードが欠落していることを意味しているようです
問題はalign.py
ファイルにあると思いますが、正確な場所はわかりません。SoX を参照するファイルの領域は次のとおりです。
python - Python オーディオ アライナ
Python スクリプトのヘルプが必要です。Penn Phonetics Audio Aligner です。私はそれをインストールしましたが、すべてが機能していますが、少しうまくいっています:)トランスクリプトを、それが話されている音声の時間と一致させようとしています。各「電話」(音節など)のすべての時間を提供します。ここで説明するために、小さなセクションを示します。
I
発音ガイドでは、AY1 を使用して表現し、TALKING を一連の音節に分割していることがわかります。一方で、データをそのまま使用することもできますが、20 分のファイルを処理するのに 15 分かかります。処理に何百時間もかかるので、いいですね。約 30 秒で同じ作業を行う高価な ($11,000) 商用製品があるので、これを少し高速化できれば素晴らしいと思います。
「電話」を書き出すセクションをコメントアウトしてから、HVite のオプションを変更して、単語の一致 -o SWT を実行しました (このページから: http://www.ee.columbia.edu/ln/LabROSA/ doc/HTKBook21/node143.html )、しかし、私はこのエラーが発生しました:
変更された HVite コマンドを使用すると、スクリプトの実行速度が大幅に向上しますが、もちろんエラーで終了します。Python スクリプトは次のとおりです。
nlp - ローカル言語用の Jarvis のようなアプリケーションの構築
現在開発中の jarvis アプリケーションは英語です。ローカル言語を使用するようにカスタマイズしたい。この種のアプリをローカル言語向けに開発するにはどうすればよいでしょうか? 開発を進めるには、どのようなプログラミング言語を知っておく必要がありますか? ジャービスの英語版をテストしましたが、うまく機能します。開発目的で c# を HTK にアタッチするにはどうすればよいですか?
speech-recognition - 辞書なしで文字起こしされていない音声を認識するためのオープンソース ツール
一般的な調査を行っているだけです。次のことを行うオープンソースの (または有料の?) ツール/プログラムはありますか?
INPUT: いくつかのラベルのない音声の音声ファイル、おそらく数文の長さ (音声の音声転写が何であるかについては示されていない)
OUTPUT: 音声表記 (IPA アルファベット) が並べられ、音声にラベル付けされた音声ファイル
これは音声辞書だけで、単語辞書なしで行うことは可能ですか?