問題タブ [term-document-matrix]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R で文書用語マトリックスを作成する
私自身、Twitter フォロワー、およびそのフォロワーのために documenttermmatrix を作成する必要があります。
tm パッケージを使用せずにこれを作成する必要があります。
現時点では、次の変数があります。
list l : フォロワーごとに保存されたすべてのフォロワーのフォロワーを含む (自分と自分のフォロワーを含む)
lunique1 : リスト l の非公開でソート済みのバージョンで、すべてのフォロワーのフォロワーが含まれています。
matrix : 次の次元で作成したマトリックス:
フォロワー: すべてのフォロワーを含むリスト。(nrow = length(followers)+1 のプラス 1 は、自分自身をディメンションに含めるために必要です。
これは、documentTermMatrix (誰が誰にリンクされているかを示すために値 0 と 1 のみを含むマトリックス) を作成するための私のコードです。
私は(まだ)Rに慣れていませんが、このコードは今夜までに機能する必要があります。私は本当にアイデアが足りないので、皆さんが私を助けてくれることを願っています:(
前もって感謝します
r - 単語の頻度を計算するための用語ドキュメント マトリックスでのラップリーの使用
3 つの TermDocumentMatrix、text1、text2、および text3 が与えられた場合、それぞれの単語頻度をデータ フレームに計算し、すべてのデータ フレームを rbind したいと思います。3 つはサンプルです。実際には数百あるので、これを機能化する必要があります。
1 つの TDM の単語頻度を計算するのは簡単です。
また
TDM のリストを作成したい:
それぞれの単語周波数を計算し、データ フレームに入れます。
そして、それをすべて rbind します:
TDM で lapply を使用して単語の頻度を計算する方法がわかりません。
サンプルデータを追加して遊んでみましょう:
r - R のコーパスのすべての用語を考慮していない DocumentTermMatrix 関数
私はtm
Rでパッケージ化するのが初めてです。コーパスで次のコードを実行していますが、の出力はDocumentTermMatrix
すべての用語を考慮していません。
データセットに 15 を超える用語があるのに、2 つの用語しか表示されません。誰でもここで助けてもらえますか?
r - R - 2 つのコーパスを比較して、コーパス #1 から頻度の高い単語を含む新しいコーパスを作成する
似たような単語を含む 2 つのコーパスがあります。setdiff
を使用しても実際には私の目的に役立たないほど十分に似ています。そこで、より頻繁に使用される単語のリストまたはコーパス (最終的にワードクラウドを作成するため) を抽出する方法を見つける方向に向かいました (このようなものにしきい値があると仮定すると、おそらく 50% より頻繁になるのでしょうか?) コーパスで # 1、コーパス #2 と比較。
これは私が今持っているすべてです:
したがって、「wingspan」という単語の頻度がコーパス #2 (「SECcorpus」) では 100 カウントであるが、コーパス #1 (「コーパス」) では頻度が 150 である場合、その単語を結果のコーパス/リストに含める必要があります。
python - ElasticSearch インデックスから Python で用語ドキュメント マトリックスを作成する
エラスティックサーチの初心者です。Python ElasticSearch クライアントを介して ElasticSearch を使用してインデックスを作成した一連のテキスト ドキュメントがあります。次に、Python と scikit-learn を使用して、ドキュメントで機械学習を行いたいと考えています。私は以下を達成する必要があります。
- ElasticSearch アナライザーを使用してテキストを処理します (ステミング、小文字など)。
- 処理されたドキュメント (または分析されたトークン) をインデックスから取得します。
- 処理されたドキュメントを分類のために Term-Document Matrix に変換します (おそらく scikit-learn の CountVectorizer を使用します)。あるいは、ElasticSearch から直接 TDM を取得する方法があるかもしれません。
これについて正しい方法を考えるのに苦労しています.ElasticSearchからの簡単な実装はないようです.
たとえば、未分析のドキュメントを ES から取得して Python で処理することはできますが、ES のアナライザーを利用したいと考えています。ES から一連のドキュメントを照会するたびに ES のアナライザーを使用できますが、既に分析されてインデックスに格納されているはずなので、何かを 2 回実行しているように思えます。または、ES に各ドキュメントの用語ベクトルを取得し、各ドキュメントの結果からトークンとカウントを手動で抽出し、トークンとカウントを指定して TDM を手動でコード化するように指示できると思います。それが今のところ私が考えることができる最も直接的な方法のようです。
機械学習パッケージを操作するために、ES インデックスから Python に分析されたテキストの TDM を取得するための、より簡単で直接的な方法はありますか?
r - TermDocumentMatrix の作成: ドキュメント数の問題
約 300 万行以上のテキスト ファイルを使用して用語ドキュメント マトリックスを作成しようとしています。テキストのランダム サンプルを作成したところ、約 300,000 行になりました。
残念ながら、次のコードを使用すると、最終的に 300,000 個のドキュメントになります。各バイグラムの頻度を含む 1 つのドキュメントが必要です。
サンプルには、約 300,000 行が含まれています。ただし、tdm のドキュメント数も 300,000 です。
どんな助けでも大歓迎です。