問題タブ [tm]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - tm パッケージを使用して類似度行列を計算する
類似性マトリックスを作成する必要があります。以下のコードは、これまでのところです。しかし、結果は私が必要とするものではありません。このコードは、16 行のマトリックスを返します。これは、document-term マトリックス内の 8 つの固有の用語と、workTitle 内の 2 つの固有の用語の積です。
必要なのは、4 行 (タイトルごとに 1 行) しかないマトリックスで、各行は workTitle の各単語とタイトルの各用語の間の編集距離の合計を表します。
上記のコードの出力は次のとおりです。
r - R tm stemCompletion は NA 値を生成します
コーパスに stemCompletion を適用しようとすると、この関数は NA 値を生成します。
これは私のコードです:
(この結果の 1 つ: [[2584]] ゾーニング計画)
次のステップはコーパスのスタミングです。
しかし、結果はこれです
[[2584]]NAプラント
次のステップでは、トランザクションとアプリオリ ルールを使用して発生マトリックスを作成する必要がありますが、続けてルールを取得しようとすると、inspect(rules) 関数で次のエラーが発生します。
どうしたの?NA 値が正しく発生行列を生成せず、適切なルールが生成されないと思います..これは問題ですか? もしそうなら、どうすれば解決できますか?
これは問題の要約です:
r - テキスト マイニング tm がハングする大きなデータ フレーム。
R パッケージ tm を使用してテキスト マイニング分析を実行しています。データをコーパスにロードして実行しようとすると
クエリはそれぞれ私にかかっているようで、完了するのに時間がかかりすぎます。50万行の検索クエリの間に何かを得ました。この大規模なデータ セットに対して tm パッケージ コマンドを実行するには、メモリとマシンをハングアップさせずに実行するにはどうすればよいでしょうか。
参考までに - 私のマシンには 8GB 以上の RAM があります。
r - RTextTools パッケージにカスタム ストップワードのリストを提供することは可能ですか?
tm パッケージを使用すると、次のように実行できます。
mystopwords
削除したい追加のストップワードのベクトルです。
しかし、RTextTools パッケージを使用して同等の方法を見つけることができません。例えば:
これを行うことは可能ですか?私はインターフェイスが本当に好きで、RTextTools
に戻らなければならないのは残念tm
です.
r - R を使用した Twitter マイニング (twitteR + tm): tolower 変換を使用したエラー
twitteR パッケージの CRAN バージョンを使用して抽出した twitter データの操作に問題があります。特に、tm パッケージからの tolower 変換。
これは私が現在やっていることです:
他の変換は正常に完了します (tolower が実行されていない場合)。ただし、より低い変換は次を返します。
これはいずれかのツイートのキャラクターが原因ではないかと疑っていますが、どうすれば問題を突き止めることができますか?
編集: 確かに、特定の文字がこれを引き起こしているようです。
ここで「\ud83d\ude1c」の部分がエラーの原因です。ツイートからこれらのフレーズ (これはhttp://www.charbase.com/1f61c-unicode-face-with-stuck-out-tongue-and-winking-eye ) を自動的に削除する方法についてのアイデアはありますか?
r - 関心のある特定の単語に対して相関性の高い単語をプロットする
単語の最高の相関関係をプロットしようとしています。たとえば、「クジラ」という単語の最も高い 10 個の相関をグラフ化したいと考えています。誰かがそのようなコマンドで私を助けることができますか? それが役立つ場合は、RGraphViz をインストールしました。
r - R で ngram を検索し、コーパス全体で ngram を比較する
私は R で tm パッケージを使い始めています。私は、社会主義者/共産主義者のプロパガンダのかなり大きなコーパスを作成し、新たに造られた政治用語 (複数の単語、たとえば「闘争 - 批判 - 変革運動」) を抽出したいと考えています。
これは 2 段階の質問です。1 つはこれまでのコードに関するもので、もう 1 つはどのように進めるべきかに関するものです。
ステップ 1:これを行うために、最初にいくつかの一般的な ngram を特定したいと考えました。しかし、私は非常に早い段階で立ち往生しています。これが私がやっていることです:
私が R にロードしたコーパスは、私が投げたほとんどの関数で正常に動作します。コーパスから TDM を作成したり、頻出単語や連想を見つけたり、ワード クラウドを作成したりするのに問題はありませんでした。しかし、 tm FAQで概説されているアプローチを使用して識別 ngram を使用しようとすると、tdm-constructor で間違いを犯しているようです。
次のエラー メッセージが表示されます。
何か案は?「a」は正しいクラス/オブジェクトではありませんか? よくわかりません。ここに根本的な間違いがあると思いますが、私はそれを見ていません。:(
ステップ 2:次に、コーパスを他のコーパスと比較したときに、著しく過剰に表現されている ngram を特定したいと思います。たとえば、コーパスを大規模な標準英語コーパスと比較できます。または、相互に比較できるサブセットを作成します (たとえば、ソビエトと中国共産党の用語)。これを行うにはどうすればよいか、何か提案はありますか? 調べる必要があるスクリプト/関数はありますか? いくつかのアイデアや指針だけでも素晴らしいでしょう。
お待ち頂きまして、ありがとうございます!
text-mining - 潜在的ディリクレ配分 (LDA) のドキュメント数
この質問をご覧いただきありがとうございます。私は最近、Web からいくつかのテキストをスクレイピングし、出力を約 300 ページの .txt ファイルとして保存しました。トピックを作成するために LDA を実装しようとしていますが、その技術的な側面に精通しています。
ただし、私の質問は、LDA が 1 つのファイルを使用することと複数のファイルを使用することのどちらが重要かということです (つまり、200 通の電子メールを調査している場合、トークン化して、ストップワードと句読点を削除し、大きなファイルをステム処理してから、各電子メールをファイルとして保存する必要がありますか?) LDA を実装する前に .txt ファイルを分離するか、1 つのファイルですべてを実行できますか?
私が現在直面している問題は、すべてを個別の .txt ファイルに分割すると、ドキュメントの前処理に時間がかかることです。助言がありますか?どうもありがとう。