問題タブ [term-document-matrix]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 用語ドキュメント マトリックスをタブローで読み取り可能なテーブルに変換する
R tm パッケージを使用して用語ドキュメント マトリックスを作成し、それをデータフレームに変換して csv にエクスポートしました。
用語文書マトリックスのサンプル部分:
タブローでさらに分析するために、タイトルとそこに存在する用語のみを含む以下の表の表に変換するにはどうすればよいですか?
r - Bi グラムの用語ドキュメント マトリックスを作成しますか?
大規模なデータセットでテキストマイニングを行っています。TDM と DTM を作成でき、TDF と IDF を使用して分析を実行できました。しかし、R で Bi Grams の Term Document Matrix または Document Term Matrix を作成できますか? 同様の機能が Mahout で利用できることは知っていますが、R でこれを行う方法を探していますか?
r - 用語頻度マトリックス
次のような文字列があります。
m<-"abcdabcdbcadacbddabcc..."
次のようなマトリックスを生成したいと思います。
どうすればrでそれを行うことができますか?
r - R DocumentTermMatrix は 100 未満の結果を失います
用語の頻度を取得するためにコーパスを DocumentTermMatrix (略して DTM) にフィードしようとしていますが、DTM がすべての用語を保持していないことに気付きました。その理由はわかりません! 見てみな:
ここまでは順調ですね。
しかし今、私は C を DTM に入力しようとしましたが、反対側から出てきません! 見る:
100 未満のすべての結果はどこにありますか? それともどういうわけか2文字のものですか?私も試しました:
と
無駄に。何を与える?
r - TermDocumentMatrix が与えられた場合、どうすればそれを数値行列に変換できますか?
termDocumentMatrix
以下に示すように、すでに生成しています。
次に、それを数値行列に変換したいのですが、エラーが表示されます。私が使用するコマンドは次のとおりです。
次に、マトリックスは次のようなリストになります。
どこで間違ったのですか?
solr - ドキュメントごとにヒットした検索語を返すように Solr に指示するにはどうすればよいですか?
Solr でのクエリについて質問があります。OR ですべて論理的にリンクされた複数の検索用語 (例: q=content:(foo OR bar OR foobar)
) を使用してクエリを実行すると、Solr はこれらの用語のいずれかにすべて一致するドキュメントのリストを返します。しかし、Solr が返さないのは、どのドキュメントがどの用語にヒットしたかです。したがって、上記の例で知りたいのは、結果リストのどのドキュメントにfooなどの用語が含まれているかです。この情報があれば、用語とドキュメントのマトリックスを作成できます。
私の質問は、Solr に不足している情報を教えてもらうにはどうすればよいかということです。どこかにあると確信しています。そうしないと、全体としての検索が機能しません。しかし、何が欠けていますか?ご協力いただきありがとうございます。
PS: 回避策として、すべての検索語に対して単一の Solr クエリを実行しています。しかし、ご想像のとおり、検索語句の数が 50 を超える可能性があるため、パフォーマンスの問題では最悪です :(
r - 4M 行のコーパスと DTM を作成するより効率的な手段
私のファイルには 4M を超える行があり、ベイジアン分類器に渡すことができるように、データをコーパスおよびドキュメント用語マトリックスに変換するより効率的な方法が必要です。
次のコードを検討してください。
出力:
私の質問は、コーパスと DTM をより速く作成するために何を使用できるかということです。30万行を超えると非常に遅くなるようです。
使えると聞いたことがありますdata.table
が、よくわかりません。
パッケージも見ましたが、qdap
パッケージをロードしようとするとエラーが発生し、さらにそれが機能するかどうかもわかりません。
r - R の TermDocumentMatrix エラー
私は R の {tm} パッケージの多数のオンライン例を調べて、TermDocumentMatrix を作成しようとしました。コーパスの作成とクリーニングは非常に簡単ですが、マトリックスを作成しようとすると、常にエラーが発生します。エラーは次のとおりです。
UseMethod("meta", x) のエラー: クラス "character" のオブジェクトに適用される 'meta' に適用可能なメソッドがありません。さらに: 警告メッセージ: In mclapply(unname(content(x)), termFreq, control) : allスケジュールされたコアでユーザー コードでエラーが発生しました
たとえば、Jon Starkweather のテキスト マイニングの例のコードを次に示します。このような長いコードについては事前にお詫びしますが、これにより再現可能な例が生成されます。エラーは {tdm} 関数で最後に発生することに注意してください。
r - R を使用したテキスト マイニング
同様の質問を見たことがありますが、私が扱っていることに対する答えは見つかりませんでした。初めてなので、簡単な解決策があればご容赦ください。
私は R パッケージ「tm」を使用しており、http ://www.cs.cmu.edu/afs/cs/project/theo にある WebKB データから用語ごとのマトリックスを作成しようとしています。 -20/www/データ/
データはいくつかの異なるフォルダーにあり、それぞれがトピックを追跡していますが、ドキュメントを 1 つのファイルにまとめました。すべてのドキュメントの中で、複数のトピックにあるドキュメントは 1 つまたは 2 つだけです。
さて、これが私がやったことです:
これまでのところ、エラーはありません。しかし、次の行を実行すると
次のエラーが表示されます
UseMethod("meta", x) のエラー: クラス "try-error" のオブジェクトに適用される 'meta' に適用可能なメソッドがありません。さらに: 警告メッセージ: 1: mclapply(x$content[i], function(d ) tm_reduce(d, x$lazy$maps)) : スケジュールされたコア 1 ユーザー コードでエラーが発生しました。ジョブのすべての値が影響を受けます 2: mclapply(unname(content(x)), termFreq, control) : すべてスケジュールされていますコアでユーザー コードでエラーが発生しました
何が問題なのか誰か教えていただければ幸いです。また、この用語ごとのマトリックスを作成するためのより効率的な方法があれば、私は提案します! 最後に、これらの html ファイル内のリンクをすべて削除する必要があります。これを処理する R 関数はありますか? ドキュメントには見当たりませんでしたので、これを行う方法についての提案もあれば、よろしくお願いします。
御時間ありがとうございます!