問題タブ [lexicon]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
language-agnostic - 「直交性」とは?
プログラミング言語について話すとき、「直交性」とはどういう意味ですか?
直交性の例は何ですか?
search - 検索クエリ修正のための英語辞書
「 Web ユーザーの集合的な知識を活用する反復プロセスとしてのスペル修正」で説明されている方法を実装することにより、検索エンジン クエリのスペル修正プログラムを構築しています。
高レベルのアプローチは次のとおりです。特定のクエリについて、各ユニグラムとバイグラムの可能な修正候補 (特定の編集距離内にあるクエリ ログ内の単語) を考え出し、修正されたビタビ検索を実行して、最も可能性の高いシーケンスを見つけます。バイグラム周波数が与えられた候補の。シーケンスが最大確率になるまで、このプロセスを繰り返します。
ビタビ検索への変更は、2 つの隣接する単語が両方とも信頼できる語彙で見つかった場合、多くても 1 つを修正できるようにするためのものです。これは、正しいスペルの単一単語のクエリがより頻度の高い単語に修正されるのを避けるために特に重要です。
私の質問は、そのような辞書をどこで見つけるかです。英語で作成し、検索クエリに表示される可能性が高い固有名詞 (姓名、地名、ブランド名など) と、一般的および一般的ではない英語の単語を含める必要があります。正しい方向へのプッシュでも役に立ちます。
また、誰かがこれを読んでいて、論文で提供されている方法論を改善するための提案がある場合は、これが NLP への私の最初の進出であることを考えると、それらに対してオープンです。
python - ロシア語から英語への対訳語コーパス?
ロシア語から英語への単純な単語コーパスを探しています。それは、最初の列にロシア語の単語をリストし、2 番目の列に対応する英語の単語をリストする csv のように単純にすることができます。そのようなものを見つけることができるアイデアはありますか? NLTK ツールキットにはこのようなものがありますか?
ありがとう
bash - 単語頻度集計スクリプトが遅すぎる
バックグラウンド
プレーン テキスト ファイル内の単語の頻度をカウントするスクリプトを作成しました。スクリプトは次の手順を実行します。
- コーパスから単語の頻度を数えます。
- 辞書で見つかったコーパス内の各単語を保持します。
- 周波数のコンマ区切りファイルを作成します。
スクリプトはhttp://pastebin.com/VAZdeKXsにあります。
問題
次の行は、単語を照合するために辞書を継続的に循環します。
機能しますが、辞書にない単語を削除するために見つかった単語をスキャンしているため、速度が低下します。このコードは、単語ごとに辞書をスキャンしてこのタスクを実行します。(-m 1
パラメーターは、一致が見つかったときにスキャンを停止します。)
質問
単語ごとに辞書が最初から最後までスキャンされないようにするには、スクリプトをどのように最適化しますか? ほとんどの単語は辞書に載っていません。
ありがとうございました!
algorithm - 英語のテキスト辞書の比較
想像してみてください。統計表を作成できます。英語のテキストや本で各単語がどれだけ使用されているかを示します。図書館の各教科書の統計を集めることができます。これらの統計を相互に比較する最も簡単な方法は何ですか?統計的に非常に類似したレキシコンを持つテキストのグループ/クラスターをどのように見つけることができますか?
c++ - C++ の入力ファイルを使用してレキシコンを作成しようとしています。
私はfile.txtを持っています。そのファイル内の単語を読み取ることができる関数をC++で作成し、各単語とそれらがfile2.txtに出現する回数を出力します
パーサーとライター、およびマップクラスを使用できることがわかっている調査を行っていますが、何か助けてください。
python - Python でレキシコンとスキャナーを作成する
私はここコーディングの世界では新人で、あまり温かい歓迎を受けていません。オンライン チュートリアルhttp://learnpythonthehardway.org/book/で Python を学ぼうとしています。練習問題 48 と 49 まで、私はこの本を苦労して読み進めることができました。しかし、私は単にできません。可能な単語のレキシコンを作成する必要があること、およびユーザー入力をスキャンしてレキシコン内の何かと一致するかどうかを確認する必要があることは理解していますが、それだけです! 私が知る限り、lexicon というリストを作成する必要があります。
そうですか?次に何をすればいいのかわからない?リスト内の各項目がタプルと呼ばれることは知っていますが、それは私にとっては何の意味もありません。生の入力を取得してタプルに割り当てるにはどうすればよいですか? 私の言っていることが分かるよね?演習 49 で、彼はレキシコンをインポートし、python の内部で lexicon.scan("input") を出力し、タプルのリストを返します。たとえば:
「scan()」は定義済みの関数ですか、それともレキシコン モジュール内で関数を作成したのですか? 「split()」を使用すると、入力からすべての単語を含むリストが作成されることはわかっていますが、「go」をタプル (「動詞」、「go」) にどのように割り当てますか?
私はちょっと離れていますか?私は多くのことを尋ねていることを知っていますが、私は何時間もあちこちを検索しましたが、これを自分で理解することはできません. 助けてください!私はあなたを永遠に愛します!
speech-recognition - マイクロソフト音声認識
Microsoft のインプロセス音声認識エンジンを使用してアプリケーションを作成しようとしています。私のアプリケーションでは、口述文法を使用することもあれば、SRGS を使用することもあります。もちろん、SRGS を使用しても問題はありません。
入手可能な最高のマイクの 1 つ (Andrea USB サウンド カードを搭載した Sennheiser ME3) を使用していますが、認識結果は許容できるものとはほど遠いものです。私のアプリケーションは特定のドメインで動作します。システムのユーザーが話す可能性が高い単語やフレーズがいくつかあります。私の質問は、ディクテーション文法を使用すると同時に、アプリケーションのドメインで重要な単語を指定する方法があるかどうかです。これは、開発者が提供する単語とフレーズのリストに対してのみ、音声認識エンジンの言語モデルを部分的に変更する一種です。