問題タブ [language-model]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
1198 参照

java - 言語モデリング ツールキット

テキストコーパスの言語モデルを構築したいと考えています。私の仕事を軽減するすぐに使える優れたツールキットはありますか? 私が知っている唯一のツールキットは、CMU による統計言語モデリング (SLM) ツールキットです。

よろしく、

0 投票する
1 に答える
499 参照

java - Javaで非常に短時間で非常に大きなARPAファイルを検索します

ほぼ 1 GB の ARPA ファイルがあります。1分以内に検索する必要があります。私はたくさん検索しましたが、適切な答えはまだ見つかりません。ファイル全体を読む必要はないと思います。ファイル内の特定の行にジャンプして、その行全体を読み取るだけです。ARPA ファイルの行の長さが同じではありません。ARPA ファイルには特定の形式があることに言及する必要があります。

ファイル形式

サンプル ファイルでわかるように、1 グラムが 19 行、2 グラムが 234 行、3 グラムが 1013 行あります。行の文字列部分をプログラムに渡し、文字列の左側と右側にある数字を取得します。入力文字列は、ファイルのどの部分を検索する必要があるかを知るのに役立ちます。ファイルが非常に大きく、ファイル全体を読み取るには時間がかかるため、ファイルを完全に読み取らない方法を見つける必要があります。インデックスファイルを使わずにファイル内の特定の行にジャンプして行全体にアクセスするのは良い方法だと思います。

あなたが私の任務を遂行するのを手伝ってくれるなら、それは素晴らしいことです。

0 投票する
1 に答える
1175 参照

speech-recognition - Sphinx 4 は ARPA LM を破損しましたか?

SPHINX を実行すると、 kylmによって生成された ARPA LM があり、次の例外スタック トレースが表示されます。

ARPA LM の抜粋を次に示します。

PS :後に改行があります\end\

例外は、SPHINX が最後の行で予期しない EOF に遭遇していることを示しています (そこで EOF に遭遇するはずではありませんか??)

助けてください!

0 投票する
2 に答える
6706 参照

iphone - openears互換の言語モデルの構築

私は音声合成と音声合成の開発を行っていますが、OpenEarsAPIが非常に便利であることがわかりました。

このcmu-slmベースのAPIの原理は、言語モデルを使用して、iPhoneデバイスで聞いた音声をマッピングすることです。そこで、API音声認識エンジンにフィードするための大きな英語モデルを見つけることにしました。しかし、OpenEarsで使用するvoxfourge英語データモデルの形式を理解できませんでした。

英語の.languagemodelファイルと.dicファイルをOpenEarsで動作させるにはどうすればよいか考えている人はいますか?

0 投票する
2 に答える
7165 参照

speech-recognition - 50,000 ワードの ARPA 言語モデル ファイルの作成

50,000 語近くの ARPA 言語モデル ファイルを作成したいと考えています。テキスト ファイルを CMU 言語ツールに渡して言語モデルを生成できません。これらの多くの単語の言語モデルを取得できる他のリンクはありますか?

0 投票する
1 に答える
565 参照

voice-recognition - 音声認識でarpaファイルを使用する方法

CMUSLMツールキットを使用してテキストファイルからARPAファイルを作成しました。

.lm現在、プロジェクトで生成されたARPAファイルをandfileの代わりに使用する方法がわかりません.dic

誰かがそれについて知っているなら、私に知らせてください。

0 投票する
3 に答える
10443 参照

nlp - ARPA 言語モデルのドキュメント

ARPA 言語モデル形式に関するドキュメントはどこにありますか?

ポケットスフィンクスSTTエンジンを使った簡単な音声認識アプリを開発しています。そこでは、パフォーマンス上の理由から ARPA が推奨されます。カスタム ニーズに合わせて言語モデルを調整するために、どの程度のことができるかを理解したいと考えています。

私が見つけたのは、いくつかの非常に簡単な ARPA 形式の説明だけです。

私は STT の初心者であり、これを理解するのに苦労しています (n-gram など...)。より詳細なドキュメントを探しています。ここのJSGF文法に関するドキュメントのようなもの:

http://www.w3.org/TR/jsgf/

0 投票する
2 に答える
2160 参照

python - ARPA ファイルへの Python インターフェイス

ARPAファイル(バックオフ言語モデル)をロードし、それらを使用してテキストを評価するためのpythonicインターフェイスを探しています。たとえば、ログ確率、困惑などを取得します。

Python で ARPA ファイルを生成する必要はありません。クエリに使用するだけです。

おすすめのパッケージはありますか?すでにkenlmswig-srilmを見ましたが、最初のものは Windows でセットアップするのが非常に難しく、2 番目のものはもうメンテナンスされていないようです。

0 投票する
2 に答える
2277 参照

nlp - kenlm クエリの出力形式を理解する必要がある

LMにはkenlm paperが良さそうです。最小限のドキュメントが与えられているように感じ、理解に困難を感じました。

したがって、kenlm を理解する一環として、モデルのクエリの出力形式を理解する必要があります。その詳細を教えてください。

タグが利用できないため、lm、kenlmで正しくタグ付けできませんでした。

詳細:

実行:

出力: