問題タブ [n-gram]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - NLTKを使用すると、単語のバイグラムを簡単に計算できます。手紙はどうですか?
Python NLTKを使用すると、単語のバイグラムを簡単に計算できるようになる方法について、Web全体で大量のドキュメントを見てきました。
手紙はどうですか?
私がやりたいのは、辞書をプラグインして、さまざまな文字のペアの相対的な頻度を教えてもらうことです。
最終的には、ある種のマルコフ過程を作成して、見た目が良い(しかし偽の)単語を生成したいと思います。
python - python nltkでnグラムの頻度を数える
次のコードがあります。apply_freq_filter
関数を使用して、頻度カウント未満のコロケーションを除外できることを知っています。ただし、フィルタリングに設定する頻度を決定する前に、ドキュメント内のすべての n グラム タプル (私の場合はバイグラム) の頻度を取得する方法がわかりません。ご覧のとおり、nltk コロケーション クラスを使用しています。
machine-learning - 感情分析/分類タスクにおけるバイナリと tfidf Ngram 機能の比較?
もう一度簡単な質問: Ngrams (unigram/bigrams など) を単純なバイナリ機能として使用する方が良いですか?それとも、感情分析やテキストの分類/分類などの NLP タスクを実行するための Support Vectory Machines などの ML モデルで Tfidf スコアを使用する方がよいでしょうか?
solr - solr NGramFilterFactory が数値に対して機能しない
これがバグなのか機能なのかはわかりませんが、Solr NGramFilterFactory は数値では機能しません。
これが私のフィールドタイプです:
Solr 管理インターフェイスでアナライザーを使用して「ビジネス」などの単語を入力すると正常に機能しますが、12345678 などの数字を入力すると機能しません。
私が欲しいのは、電話番号の一部を検索することです。電話番号として 123456789 があり、456 または 6789 を検索すると、ヒットするはずです。
何か案は?
python - 自然言語処理 - ngram に似ています
私は現在、コンテキスト内で同義語 (WordNet を使用した Python の NLTK から受け取ったもの) を区別しようとする NLP プロジェクトに取り組んでいます。私は、私が望むものを正確に見つけようとして、かなりの量の NLP の概念を調べました。私が見つけた最も近いものは n-gram ですが、完全に適合するわけではありません。
動詞「ボックス」の適切な定義を見つけようとしているとします。「箱」は「戦い」または「パッケージ」を意味する場合があります。ただし、テキストの別の場所に、「リング」または「ファイター」という単語が表示されます。私が理解しているように、n-gram は「ボックス ファイター」または「ボックス リング」になります。しかし、コンセプト マップでは、「ボックス」アクションは概念的に関連しているため、「リング」にリンクされる場合があります。
n-gram は私が欲しいものですか? これには別の名前がありますか?そのようなリレーショナル データを取得する場所について何か助けはありますか?
すべての助けに感謝します。
n-gram - ngram モデリング、クロスバリデーションの実施方法
ngram モデルのコンテキストでクロス検証がどのように機能するかを理解しようとしています。モデルは基本的に、トレーニング中のコーパスからの各 ngram の確率をリストしていることを理解しています。しかし、クロスバリデーションはどのように機能するのでしょうか? 調整すべきパラメータは何ですか? 検証セットで 100% の精度を得たいことはわかっていますが、これを機能させるために何を調整する必要があるかわかりません。スムージングとか関係あるの?
search - Solrのn-gramフィルターから短い単語を保護できますか?
Solrで短い単語を検索することについてのこの質問を見ました。同様の問題に対する別の可能な解決策があるかどうか疑問に思っています。minGramSizeが3のEdgeNGramFilterを使用しています。特定の短い単語のセット(主に2文字の頭字語)が無視されないように保護したいのですが、それ以外の場合はminGramSizeを3のままにしておきます。EdgeNGramFilterは、保護された単語リストをサポートしていません。単一のフィールドタイプ内でこれを可能にするフィルターまたは設定はありますか、それとも作成する必要がありますか?
または、私はこれを間違った方法で考えていますか?
java - LinkedHashMap java を使用した Trigram の作成
LinkedHashMap> を使用してトライグラム モデルを作成しようとしています。ここで、Entry は最後に入力されたバイグラムのエントリです (構造は LinkedHashMap です)。
問題は、複数のキーを格納しないマップであることです (既存のキーの新しいキーと値のペアで既存のキーと値のペアを上書きします)。
マルチマップがこれに役立つかどうかはわかりませんか? もしそうなら、どのように?
algorithm - 単純なn-gramアルゴリズム
文中のn-gramを見つけることができるアルゴリズム(またはC#、Javaソース)を探しています。具体的には、100語(w1〜w100)の語彙と、これらの単語(s1、s2、s3など)で構成された文があります。
文は1から100語までの可変長であり、単語は文の中で任意の順序で表示できます(ただし、文に配置されると順序は重要です)、単語は任意の回数繰り返すことができます。
しきい値を取り、しきい値を超えて発生する文とn-gramが出現する文のn-gramを返すアルゴリズムを探しています。
また、同じ順序で、間にギャップがある一般的な単語を検出するギャップトレラントアルゴリズムにも興味があります。
前もって感謝します。この質問が明確に、StackOverflowの範囲内で述べられていることを願っています。