“term-document-matrix”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

66 参照

r - 'tm' コーポライズされた用語ドキュメントマトリックスでストップワードが除外されないのはなぜですか?

ライブラリを使用して、用語とドキュメントのマトリックスを構築していtmます。

ただし、用語と文書のマトリックスを確認すると、いくつかのストップワードが残っていることがわかりました。

それはなぜですか、どうすればよいですか？

r tm term-document-matrix

2015-08-19T20:45:55.263

0 投票する

1 に答える

811 参照

r - tm からの用語ドキュメント行列のスパース性と最大用語長を格納する方法

ngramsを見つけながらRの別の変数にTerm Document Matrixのスパース性と最大用語長を格納する方法は?

上記のスパース性、最大項長、加重、非/スパースエントリを個別の変数に格納する方法。

r nlp tm term-document-matrix

2015-10-07T16:06:20.547

0 投票する

1 に答える

600 参照

java - Sparkを使用して複数のドキュメントから用語とドキュメントのマトリックスを取得するには?

複数のドキュメントから用語とドキュメントのマトリックスを生成しようとしています。作成済みのマトリックスから LDA モデルを実行できましたが、ここでこのステップを戻す必要があります。単純な term-doc マトリックスを実装しようとしましたが、行き詰まりました。私がしたことは：

したがって、この関数は次のような結果をもたらします。

これで問題ないと思いますが、今度はそれを減らして、次のような出力を抽出する必要があります。

私は多くのことを試しましたが、それを得ることができませんでした...誰かが私を助けることができますか?

java apache-spark text-mining apache-spark-mllib term-document-matrix

2015-10-07T21:05:52.537

0 投票する

1 に答える

603 参照

r - 文字列内の単語を探しながら用語文書行列を計算する

この質問は私の以前の質問に関連しています。スペースで区切られた単語を同じように扱う

他のユーザーが簡単に見つけるのに役立つ可能性があるため、別のものとして投稿します。

問題は、現在パッケージごとterm document matrixに計算される方法に関するものです。tm以下で説明するように、この方法を少し調整したいと思います。

現在、すべての用語ドキュメントマトリックスは、ドキュメント内で「milky」という単語を (文字列としてではなく) 別の単語として検索することによって作成されます。たとえば、2 つのドキュメントがあるとします。

現在のアルゴリズムの仕組み (パッケージ) によると、「milky」は最初のドキュメントで見つかりますが、アルゴリズムは用語を別の単語としてtm検索するため、2 番目のドキュメントでは見つかりません。milkyしかし、アルゴリズムがmilky関数のような文字列を検索した場合grepl、2 番目のドキュメントにも「milky」という用語が見つかります。

誰かが私の要件を満たす用語文書マトリックスを作成するのを手伝ってくれませんか (これはmilky両方の文書で用語を見つけることができるようにすることです. 単語またはに固有の解決策は望んでいないことに注意してください.milky一般的な解決策が必要です.そのようなすべてのケースを処理するために、より大規模に適用されます)? tmパッケージを使わないソリューションでも構いません。最終的には、自分の要件を満たす用語ドキュメントマトリックスを取得する必要があります。最終的には、その中の各用語が、問題のドキュメントのすべての文字列内で (単語としてだけでなく) 文字列として検索されるように、用語ドキュメントマトリックスを取得できるようにしたいと考えています (grepl用語ドキュメントマトリックスの計算中の機能など)。

用語文書マトリックスを取得するために使用する現在のコードは

r text-mining tm term-document-matrix

2015-10-13T12:51:47.327

0 投票する

2 に答える

98 参照

r - R: 語句ごとの検索頻度 -- 警告メッセージ

マーチン・ルーサー・キングの「私には夢がある」という演説の用語ごとの頻度を見つけようとしています。すべての大文字を小文字に変換し、ストップワードをすべて削除しました。.txt ファイルにテキストがあるため、ここには表示できません。ファイルを読み込むコードは次のとおりです。

次に、小文字への変換とストップワードの削除を正常に実行し、次のように呼び出しました。

現在、用語ごとの頻度を見つけるのに問題があります。コーパスを作成し、コーパスを調べて、次のように TermDocumentMatrix を作成しました。

この時点まではすべて問題ありません。ただし、次のコードを記述したところ、次の警告メッセージが表示されました。

これは非常に一般的な警告メッセージであることはわかっているので、最初に Google で検索しましたが、用語の頻度に関する情報は見つかりませんでした。次のテキストを実行して、警告メッセージが表示されるかどうかを確認しましたが、実行されませんでした。

私の目標は、用語の頻度を見つけることです。このような質問が多く寄せられていることを知っているため、このような質問をしたことを心からお詫び申し上げます。コードの何を変更すればよいかわかりません。ありがとうございます！

r frequency tm corpus term-document-matrix

2015-10-19T19:40:37.343

0 投票する

1 に答える

1150 参照

r - Rでtdmまたはdtmのigraphを使用してキーワード/単語の関連付け(findAssocs)をプロットしていますか?

R で特定の単語の関連付けに基づいて用語ネットワーク分析プロットを作成したいのですが、用語ドキュメントマトリックス全体をプロットする以上の方法がわかりません。

たとえば、単語の関連付けネットワーク分析プロットを (一般的な単語の関連付け棒グラフと同様に) 次のfindAssocsデータに適用する方法はありますか?:

つまり、特定のキーワードと R の他のキーワードとの関係を視覚化したいのですが、方法がわかりません。

r plot igraph term-document-matrix

2015-11-01T23:11:52.067

0 投票する

1 に答える

1227 参照

r - Twitter データ <- termdocumentmatrix のエラー

次のようにエラーをスローします -

Twitterでキーワードを検索してから、ワードクラウドを作成しようとしています。すべての句読点を削除し、単語を停止し、数字を削除しますが、まだ機能していないようです。

どんな助けでも大歓迎です。

r twitter term-document-matrix

2015-11-15T16:49:12.777

0 投票する

2 に答える

876 参照

r - R TermDocumentMatrix() で句読点を保持するにはどうすればよいですか

文字列のパターンを識別して抽出する大きなデータフレームがあります。私のタスクを説明するために小さなサブセットを提供しました。複数の単語で TermDocumentMatrix を作成してパターンを生成しています。これらのパターンを stringi および stringr パッケージの stri_extract および str_replace で使用して、「punct_prob」データフレーム内を検索します。

私の問題は、各文字列内で文字通りの意味を維持するために、「punct_prob$description」内で句読点をそのままにしておく必要があることです。たとえば、2.35 mm を 235 mm にすることはできません。ただし、私が使用している TermDocumentMatrix プロシージャは句読点 (または少なくともピリオド) を削除しているため、パターン検索関数はそれらに一致しません。

要するに... TDMを生成するときに句読点を維持するにはどうすればよいですか? TermDocumentMatrix コントロール引数内に removePunctuation=FALSE を含めようとしましたが、成功しませんでした。

結果の検査 - 句読点なし....

事前に助けてくれてありがとう:)

r tm punctuation term-document-matrix

2015-11-27T10:01:53.223

0 投票する

0 に答える

97 参照

r - R の TermDocumentMatrix が機能しない

私のコーパスは次のようになります: 私のコーパス、myCorpus1 には 33704 ツイートが含まれています。以下のコードで確認できます。しかし、TermDocument Matrix である中間マトリックスを作成すると、3732 個のドキュメントしかありません。私の質問は、TermDocumentMatrix がどのように機能するかです。何か不足していますか？それとも、この関数は各ツイートを文書として扱うのではなく、独自の方法で文書を解析するのでしょうか?なぜ用語が非常に少ないのか不思議に思います。33704ツイートのテキストには10902以上あるはずだと思います

どんな助けでも大歓迎です。

r twitter tm corpus term-document-matrix

2015-12-15T04:19:47.170

問題タブ [term-document-matrix]

Reference