問題タブ [term-document-matrix]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 多くのフィールドを組み合わせてTerm-Docの頻度を取得する方法は?
ドキュメントのコレクションから、lucene を使用してインデックスを作成しました。私のドキュメントには 2 つのフィールドがあり、次のようにインデックスに追加されました。
インデックスを読み取り、すべての (term, doc) ペアの用語-頻度を取得したいと考えています。
フィールドが 1 つしかない場合、「テキスト」としましょう。次のコードを使用します。
ただし、2 つのフィールド (「タイトル」と「テキスト」) があるため、(用語、ドキュメント) ペアの用語と頻度の合計を取得するには、まずget every (term, doc) pair frequency for the "Title" field
それらをメモリに保存してからget every (term, doc) pair frequency for the "Text" field
手動で結合する必要があります。返された一意の (用語、ドキュメント) ペアごとに。
同じ (term, doc) ペアが「タイトル」フィールドと「テキスト」フィールドの両方に存在する可能性があるため (ドキュメントに同じ用語がある場合)、このメソッドは (term, doc) ペアを複数回反復する可能性が非常に高い彼の「タイトル」と「テキスト」で)。
Lucene API を使用して、代わりにすべてのフィールドを組み合わせて反復処理する方法はありますか? (同じペアを複数回繰り返すのを避けるため)
r - 関数を複数の Document Term Matrix に適用する
たとえば、DTM1、DTM2、DTM3、DTM4、DTM5 の 5 つのドキュメント ターム マトリックスがあります。
これで、DocumentTermMatrix と Title (文字) を各 Plot に受け入れ、各プロットの色を分ける myBarPlot(DTM, title, color) という関数を作成しました。
すべての DTM を関数 myBarPlot の引数として渡し、棒グラフを生成するにはどうすればよいですか。これがループで発生することを望みます。
このようなもの。
したがって、目的は、R オブジェクトを for ループの引数として渡すことです。DTMまたは複数のデータフレームなどである可能性があります。
r - RのTerm Document MatrixによるNumbersの頻度のカウント
パッケージを使い始めてtm
、Term Document Matrix 機能について質問があります。この関数を使用すると、一連のドキュメント全体で単語の頻度を取得できることがわかっています。しかし、「 NUMBERS 」の頻度が表示されていないことに気付きました。現在、ALPHA-Numberic用語のみの頻度が表示されます。
ここで何が欠けているのか教えてください。
python - scikit CountVectorizer で語彙を選択する方法
scikit CountVectorizerを使用して、ドキュメントのコレクションをトークン数のマトリックスに変換しました。また、その max_features を使用しました。これは、コーパス全体で用語の頻度によって並べ替えられた上位の max_features を考慮します。
ここで、選択したコーパスを分析したいと思います。特に、選択した語彙のトークンの頻度を知りたいです。しかし、私はそれを行う簡単な方法を見つけることができません。この点で親切に私を助けてください。
r - R でのテキスト分析
列を持つ大きなデータセット(460 Mb)があります-386551行のログ。クラスタリングと N-Gram アプローチを使用してワード クラウドを形成したいと考えています。私のコードは次のとおりです。
これにより、次のような結果が得られます。
次に、次を使用して dgMatrix に変換しました。
以下を使用しようとすると、メモリサイズエラーが発生します:
Text Analytics は初めてなので、さらに提案してください。
r - ドキュメントタームマトリックスの「違い」
政治について話し、数学について話す一連の100
文書があるとします(奇妙な組み合わせですが、それはわかっています)。私の目標は、多次元スケーリング分析、ネットワーク分析、som などの xy throught メソッドでそれらを表現することです。一連のドキュメント全体を考慮すると、次のようになります。70
30
- 100 個の要素を持つコーパス ( docs ) を作成します。
- コーパスから文書用語マトリックス ( dtm ) を作成します。
- dtm から、ドキュメントを構成する用語またはドキュメント自体についての距離 ( dist ) のマトリックスを作成します (表現したいものに従って)。
もちろん、2 つのグラフィックを別々に作成することもできますが、別のことをしたいと考えています。3 つのコーパス ( docs_tot、docs_P、docs_M ) と 3 つのドキュメント用語マトリックス ( dtm_tot、dtm_P、dtm_M ) があります。
ソリューション:
1) xy 上のドキュメントの合計を表し、政治ドキュメントと数学ドキュメントを異なる色で表します。このようにして、それらが xy 上の自然なクラスターを表しているかどうかを確認できます。
2) 違いに関するネットワーク分析を作成します。たとえば、 dtm_Pにはdtm_totドキュメント (100)のサブセット (70) しかないことを知って、dtm_Pとdtm_totをサブトラックする概念的な方法はありますか?
r - R は文書用語行列を構成し、値が空白で区切られた語句で構成される辞書と一致させる方法
R を使用してテキスト マイニングを行う場合、テキスト データを再処理した後、さらに探索するために文書用語マトリックスを作成する必要があります。でも中国語と同じように、英語にも「意味論的距離」や「機械学習」などいくつかのフェーズがあり、それらを単語に分割すると、まったく異なる意味を持ちます。値は、「セマンティック距離」、「機械学習」を含むなど、空白で区切られた用語で構成されます。ドキュメントが「単語の意味的距離を計算するために機械学習法を使用できる」場合、このドキュメントを辞書[「意味的距離」、「機械学習」]に適用すると、1x2マトリックスが返されます:[意味的距離、1 ;機械学習、1]