問題タブ [term-document-matrix]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - tm パッケージ: R のリストではなく、マトリックスでの findAssocs() の出力
次のリストを検討してください。
これらの 3 つの単語に関連付けられたすべての用語を列に表示して表示するデータ フレームを管理するにはどうすればよいですか。
- 対応する相関係数 (存在する場合)
- この単語に存在しない場合は NA (たとえば、カップル (oil, they) は NA と表示されます)
r - R removeSparseTerms パラメーターを使用して TermDocumentMatrix をビルドする
tm::TermDocumentMatrix
オブジェクトの作成中にまばらな用語を削除できますか?
私は試した:
しかし、それは機能しません。
r - R: ドキュメントのクラスタリング
次のような documentTermMatrix があります。
パッケージtm
では、2 つのドキュメント間のハミング距離を計算できます。しかし今、ハミング距離が 3 より小さいすべてのドキュメントをクラスター化したいと考えています。ここでは、クラスター 1 がドキュメント 1 と 2 であり、クラスター 2 がドキュメント 3 と 4 であることを望みます。それを行う可能性はありますか?
r - Big Text Corpus が tm_map を壊す
私はここ数日、これについて頭を悩ませてきました。私はすべての SO アーカイブを検索し、提案された解決策を試しましたが、これを機能させることができないようです。2000 06、1995 -99 などのフォルダーに txt ドキュメントのセットがあり、ドキュメント用語マトリックスや用語ドキュメント マトリックスの作成、単語のコロケーションに基づく操作など、いくつかの基本的なテキスト マイニング操作を実行したいと考えています。私のスクリプトは小さなコーパスで動作しますが、大きなコーパスで試してみるとうまくいきません。そのようなフォルダー操作のコードを貼り付けました。
tm_map で mc.cores=1 引数を使用すると、操作が無期限に続行されます。ただし、tm_map で lazy=TRUE 引数を使用すると、一見うまくいくように見えますが、その後の操作でこのエラーが発生します。
私は解決策を探していましたが、一貫して失敗しました。どんな助けでも大歓迎です!
一番!k
r - tm で TermDocumentMatrix を作成するためにコーパス用語のサブセットのみを選択する方法
私は膨大なコーパスを持っており、事前に知っている少数の用語の出現のみに関心があります。tm
パッケージを使用してコーパスから用語ドキュメント マトリックスを作成する方法はありますか?
コーパスの結果の TermDocumentMatrix をサブセット化できることはわかっていますが、メモリ サイズの制約により、完全な用語ドキュメント マトリックスを最初から作成することは避けたいと考えています。
r - TermDocumentMatrix as.matrix は大量のメモリを使用します
現在、tm パッケージを使用して、デスクトップ上で実行される 25,000 アイテム (30Mb) の適切なサイズのデータベースで重複検出のためにクラスター化する用語を抽出していますが、サーバー上で実行しようとすると、途方もない時間。詳しく調べてみると、用語の頻度を計算するために apply(posts.TmDoc, 1, sum) 行を実行して 4 GB のスワップを使い果たしたことがわかりました。さらに、as.matrix を実行してもデスクトップに 3GB のドキュメントが生成されますhttp://imgur.com/a/wllXvを参照してください
これは、25,000 個のアイテムで 18,000 個の用語の頻度カウントを生成するためだけに必要ですか? TermDocumentMatrix を行列またはベクトルに強制せずに頻度カウントを生成する他の方法はありますか?
スパース性に基づいて用語を削除することはできません。これが実際のアルゴリズムの実装方法です。2 つ以上 50 以下の用語とそれらのグループに共通する用語を探し、各グループの類似値を計算します。
参照用のコンテキスト内のコードは次のとおりです
r - R および tm パッケージ: 1 つまたは 2 つの単語の辞書を使用して、用語とドキュメントのマトリックスを作成しますか?
目的:一部のキーワードとして複合語 (バイグラム) を含む辞書を使用して、用語とドキュメントのマトリックスを 作成したいと考えています。
Web 検索: テキスト マイニングと のtm
パッケージは初めてなR
ので、これを行う方法を理解するために Web にアクセスしました。以下は、私が見つけた関連リンクです。
背景: これらのうち、NGramTokenizer
のRWeka
パッケージでR
使用するソリューションを好みましたが、問題が発生しました。以下のサンプル コードでは、3 つのドキュメントを作成し、コーパスに配置します。Docs 1
and に2
はそれぞれ 2 つの単語が含まれ ていることに注意してください。Doc 3
は 1 つの単語のみを含みます。私の辞書のキーワードは、2 つのバイグラムと 1 つのユニグラムです。
問題:上記のリンクのNGramTokenizer
解決策では、 の unigram キーワードが正しくカウントされませんDoc 3
。
私は、他の2人のために、ギブDoc 3
する1
ための行を期待していました。私が誤解していることはありますか?jedi
0
r - 私の DocumentTermMatrix はゼロ列に減少します
Train.tsv には、4 つの列名 Phrase、PhraseID、SentenceID、Sentiment (スケール 0 ~ 4) を持つ 1,56,060 行のテキストが含まれています。Phrase 列にはテキスト行があります。(Tm パッケージは既にロードされています) R バージョン: 3.1.2 ; OS: Windows 7、64 ビット、4 GB RAM。
これは train ドキュメントの上位 6 行です。
ここでは、2 つの関数を作成しました。1 つはコーパスをきれいにするため、もう 1 つは DTM (Document Term Matrix) を作成するためです。また、各センチメント値をすべてのテキスト行にリンクしました。今、dtm1の寸法を使用すると; 156060 行が表示されますが、列は 0 です。
では、センチメント ラベルが添付された DTM を生成するにはどうすればよいでしょうか。