“htk”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

901 参照

android - Android に HTK をインストールするには?

この質問に似ています。音声データをサーバーに渡したくないので、これを行うと時間がかかる可能性があります。HTKを使用して Android アプリケーションでローカルに音声データを認識し、その音声をサーバーに渡す必要がないようにできないかと考えています。これが解決策かもしれませんが、Android ndkでHTKを構築する方法について、より詳細なチュートリアルを教えてもらえますか? ありがとうございました！

2014-02-18T15:16:02.053

0 投票する

1 に答える

194 参照

c++ - 隠れマルコフモデル - C++ でのパラメーター結合の実装

隠れマルコフモデルでのパラメーターの結合は、基本的に、HMM の複数の論理パラメーターをいくつかの物理パラメーターにマッピングして、計算を減らして制約を適用することです。

したがって、パラメーター (状態、GMM、平均ベクトル、共分散行列、遷移行列、ストリームの重みベクトル、期間パラメーターベクトルなど) が HMM を表すオブジェクトのフィールドである場合、これらはいくつかの物理コピーにマッピングされます。たとえば、HMM セット内の任意の 2 つの状態は、同じ出力確率分布を持つことができます。

HMM の構文表現とそれらの間のパラメーター結合が必要であり、それらを解析してそれらから HMM オブジェクトを構築する必要があります。

(可能であれば) C++ 言語の機能を使用して、これらのパラメーターを結び付ける素敵でエレガントな方法は何でしょうか?

編集

生のポインターは絶対にオプションではありません。のような C++ ポインター型を調べていshared_ptrますが、可能であればそれらも避けたいと思います。また、C++ 参照によって機能が制限される可能性があるようです。

c++oop machine-learning hidden-markov-models htk

2014-03-03T11:38:35.427

0 投票する

2 に答える

2887 参照

nlp - カスタム言語用の TTS (テキスト読み上げ) システムを設計するためのツールキット?

ネイティブアメリカン言語 (ワユナイキ) 用の TTS システムを作成したいと考えています。言語はラテン（西洋）アルファベットで書かれています。また、音声学 (各単語を IPA 記号に変換する規則) に関する情報もあります。

先住民の音声録音のデータベースを作成する予定です。次に、IPA の同等性情報を使用して、より正確な音声モデルを生成し、そのデータを何らかの方法でトレーニングしたいと考えています。

私は自然言語処理にまったく慣れていないので、私の質問は..計画を実行するためにどのツールを使用できますか?

HTK と CMU Sphinx は音声認識が非常に優れていると聞いたことがあります。音声生成についてはわかりません。フェスティバルについても聞いたことがありますが、英語、スペイン語など、定義済みの最もよく知られている言語のみを使用していると読みました。

私のタイプミスを許してください。私はまだ英語を学んでいます。前もって感謝します！

nlp text-to-speech cmusphinx festival htk

2014-03-26T14:11:00.940

0 投票する

1 に答える

1857 参照

python - 初期化中...コマンド 'sox' がゼロ以外の終了ステータス 2 を返しました

同様のエラーメッセージの質問を確認しましたが、私の状況にぴったり合うものは見つかりませんでした。HTK、Prosodylab-aligner、および SoX を使用して、.wav ファイルを .lab ファイルと時間調整しようとしています。

これが私の入力です（Prosodylab-alignerを使用）：

表示されるのは、次のコード行だけです。

このコードの意味を調べたところ、コマンドまたはキーワードが欠落していることを意味しているようです

問題はalign.pyファイルにあると思いますが、正確な場所はわかりません。SoX を参照するファイルの領域は次のとおりです。

python audio exchange-server htk

2014-06-16T19:00:29.200

0 投票する

0 に答える

1549 参照

python - Python オーディオアライナ

Python スクリプトのヘルプが必要です。Penn Phonetics Audio Aligner です。私はそれをインストールしましたが、すべてが機能していますが、少しうまくいっています:)トランスクリプトを、それが話されている音声の時間と一致させようとしています。各「電話」（音節など）のすべての時間を提供します。ここで説明するために、小さなセクションを示します。

I発音ガイドでは、AY1 を使用して表現し、TALKING を一連の音節に分割していることがわかります。一方で、データをそのまま使用することもできますが、20 分のファイルを処理するのに 15 分かかります。処理に何百時間もかかるので、いいですね。約 30 秒で同じ作業を行う高価な ($11,000) 商用製品があるので、これを少し高速化できれば素晴らしいと思います。

「電話」を書き出すセクションをコメントアウトしてから、HVite のオプションを変更して、単語の一致 -o SWT を実行しました (このページから: http://www.ee.columbia.edu/ln/LabROSA/ doc/HTKBook21/node143.html )、しかし、私はこのエラーが発生しました:

変更された HVite コマンドを使用すると、スクリプトの実行速度が大幅に向上しますが、もちろんエラーで終了します。Python スクリプトは次のとおりです。

python audio speech-recognition htk

2014-07-17T17:00:19.080

0 投票する

2 に答える

536 参照

nlp - ローカル言語用の Jarvis のようなアプリケーションの構築

現在開発中の jarvis アプリケーションは英語です。ローカル言語を使用するようにカスタマイズしたい。この種のアプリをローカル言語向けに開発するにはどうすればよいでしょうか? 開発を進めるには、どのようなプログラミング言語を知っておく必要がありますか? ジャービスの英語版をテストしましたが、うまく機能します。開発目的で c# を HTK にアタッチするにはどうすればよいですか?

nlp speech-recognition htk

2014-12-05T21:41:33.833

0 投票する

1 に答える

235 参照

speech-recognition - 辞書なしで文字起こしされていない音声を認識するためのオープンソースツール

一般的な調査を行っているだけです。次のことを行うオープンソースの (または有料の?) ツール/プログラムはありますか?

INPUT: いくつかのラベルのない音声の音声ファイル、おそらく数文の長さ (音声の音声転写が何であるかについては示されていない)

OUTPUT: 音声表記 (IPA アルファベット) が並べられ、音声にラベル付けされた音声ファイル

これは音声辞書だけで、単語辞書なしで行うことは可能ですか?

speech-recognition speech-to-text htk

2014-12-12T04:44:57.490

問題タブ [htk]

Reference