問題タブ [term-document-matrix]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 'tm' コーポライズされた用語ドキュメント マトリックスでストップワードが除外されないのはなぜですか?
ライブラリを使用して、用語とドキュメントのマトリックスを構築していtm
ます。
ただし、用語と文書のマトリックスを確認すると、いくつかのストップワードが残っていることがわかりました。
それはなぜですか、どうすればよいですか?
r - tm からの用語ドキュメント行列のスパース性と最大用語長を格納する方法
ngramsを見つけながらRの別の変数にTerm Document Matrixのスパース性と最大用語長を格納する方法は?
上記のスパース性、最大項長、加重、非/スパース エントリを個別の変数に格納する方法。
java - Sparkを使用して複数のドキュメントから用語とドキュメントのマトリックスを取得するには?
複数のドキュメントから用語とドキュメントのマトリックスを生成しようとしています。作成済みのマトリックスから LDA モデルを実行できましたが、ここでこのステップを戻す必要があります。単純な term-doc マトリックスを実装しようとしましたが、行き詰まりました。私がしたことは:
したがって、この関数は次のような結果をもたらします。
これで問題ないと思いますが、今度はそれを減らして、次のような出力を抽出する必要があります。
私は多くのことを試しましたが、それを得ることができませんでした...誰かが私を助けることができますか?
r - 文字列内の単語を探しながら用語文書行列を計算する
この質問は私の以前の質問に関連しています。スペースで区切られた単語を同じように扱う
他のユーザーが簡単に見つけるのに役立つ可能性があるため、別のものとして投稿します。
問題は、現在パッケージごとterm document matrix
に計算される方法に関するものです。tm
以下で説明するように、この方法を少し調整したいと思います。
現在、すべての用語ドキュメント マトリックスは、ドキュメント内で「milky」という単語を (文字列としてではなく) 別の単語として検索することによって作成されます。たとえば、2 つのドキュメントがあるとします。
現在のアルゴリズムの仕組み (パッケージ) によると、「milky」は最初のドキュメントで見つかりますが、アルゴリズムは用語を別の単語としてtm
検索するため、2 番目のドキュメントでは見つかりません。milky
しかし、アルゴリズムがmilky
関数のような文字列を検索した場合grepl
、2 番目のドキュメントにも「milky」という用語が見つかります。
誰かが私の要件を満たす用語文書マトリックスを作成するのを手伝ってくれませんか (これはmilky
両方の文書で用語を見つけることができるようにすることです. 単語または に固有の解決策は望んでいないことに注意してください.milky
一般的な解決策が必要です.そのようなすべてのケースを処理するために、より大規模に適用されます)? tm
パッケージを使わないソリューションでも構いません。最終的には、自分の要件を満たす用語ドキュメント マトリックスを取得する必要があります。最終的には、その中の各用語が、問題のドキュメントのすべての文字列内で (単語としてだけでなく) 文字列として検索されるように、用語ドキュメント マトリックスを取得できるようにしたいと考えています (grepl
用語ドキュメント マトリックスの計算中の機能など)。
用語文書マトリックスを取得するために使用する現在のコードは
r - R: 語句ごとの検索頻度 -- 警告メッセージ
マーチン・ルーサー・キングの「私には夢がある」という演説の用語ごとの頻度を見つけようとしています。すべての大文字を小文字に変換し、ストップ ワードをすべて削除しました。.txt ファイルにテキストがあるため、ここには表示できません。ファイルを読み込むコードは次のとおりです。
次に、小文字への変換とストップ ワードの削除を正常に実行し、次のように呼び出しました。
現在、用語ごとの頻度を見つけるのに問題があります。コーパスを作成し、コーパスを調べて、次のように TermDocumentMatrix を作成しました。
この時点まではすべて問題ありません。ただし、次のコードを記述したところ、次の警告メッセージが表示されました。
これは非常に一般的な警告メッセージであることはわかっているので、最初に Google で検索しましたが、用語の頻度に関する情報は見つかりませんでした。次のテキストを実行して、警告メッセージが表示されるかどうかを確認しましたが、実行されませんでした。
私の目標は、用語の頻度を見つけることです。このような質問が多く寄せられていることを知っているため、このような質問をしたことを心からお詫び申し上げます。コードの何を変更すればよいかわかりません。ありがとうございます!
r - Rでtdmまたはdtmのigraphを使用してキーワード/単語の関連付け(findAssocs)をプロットしていますか?
R で特定の単語の関連付けに基づいて用語ネットワーク分析プロットを作成したいのですが、用語ドキュメント マトリックス全体をプロットする以上の方法がわかりません。
たとえば、単語の関連付けネットワーク分析プロットを (一般的な単語の関連付け棒グラフと同様に) 次のfindAssocs
データに適用する方法はありますか?:
つまり、特定のキーワードと R の他のキーワードとの関係を視覚化したいのですが、方法がわかりません。
r - Twitter データ <- termdocumentmatrix のエラー
次のようにエラーをスローします -
Twitterでキーワードを検索してから、ワードクラウドを作成しようとしています。すべての句読点を削除し、単語を停止し、数字を削除しますが、まだ機能していないようです。
どんな助けでも大歓迎です。
r - R TermDocumentMatrix() で句読点を保持するにはどうすればよいですか
文字列のパターンを識別して抽出する大きなデータフレームがあります。私のタスクを説明するために小さなサブセットを提供しました。複数の単語で TermDocumentMatrix を作成してパターンを生成しています。これらのパターンを stringi および stringr パッケージの stri_extract および str_replace で使用して、「punct_prob」データフレーム内を検索します。
私の問題は、各文字列内で文字通りの意味を維持するために、「punct_prob$description」内で句読点をそのままにしておく必要があることです。たとえば、2.35 mm を 235 mm にすることはできません。ただし、私が使用している TermDocumentMatrix プロシージャは句読点 (または少なくともピリオド) を削除しているため、パターン検索関数はそれらに一致しません。
要するに... TDMを生成するときに句読点を維持するにはどうすればよいですか? TermDocumentMatrix コントロール引数内に removePunctuation=FALSE を含めようとしましたが、成功しませんでした。
結果の検査 - 句読点なし....
事前に助けてくれてありがとう:)
r - R の TermDocumentMatrix が機能しない
私のコーパスは次のようになります: 私のコーパス、myCorpus1 には 33704 ツイートが含まれています。以下のコードで確認できます。しかし、TermDocument Matrix である中間マトリックスを作成すると、3732 個のドキュメントしかありません。私の質問は、TermDocumentMatrix がどのように機能するかです。何か不足していますか?それとも、この関数は各ツイートを文書として扱うのではなく、独自の方法で文書を解析するのでしょうか?なぜ用語が非常に少ないのか不思議に思います。33704ツイートのテキストには10902以上あるはずだと思います
どんな助けでも大歓迎です。