問題タブ [qdap]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
252 参照

r - ngrams 関数を qdap パッケージの freq_terms と統合するには?

qdap freq_terms 関数が好きです。それは非常に簡単で、少なくともほとんどの場合、私が必要とすることを正確に実行します。ただし、freq_terms 関数では不十分な場合があります。テキスト分析では、用語頻度データ フレームの代わりにバイグラム頻度データ フレームが必要です。ngrams 関数を freq_terms 関数と統合することが何とか可能かどうか疑問に思っていました。私はまだ方法を理解していません。

誰にもアイデアはありますか?事前にどうもありがとうございました!

理想的には、次のように機能します。

私はそのように動作しないことを知っていますが、同じ結果を達成する別の方法はありますか?

0 投票する
0 に答える
180 参照

r - r tm foreach を使用して並列ドキュメントの極性を決定する

私は r tm コーディングの世界に不慣れで、 foreach %dopar% ループを使用しながら大きなテキスト データ フレームを並列処理しようとしています (これがはるかに高速であることがわかったため)。ただし、最初の for ループを並列 foreach ループに変換する方法がそれぞれどのように機能するかはよくわかりません。

特に、データセットの極性を判断したいのですが、多くの異なる極性.frames(WORDKEY)のスコアが必要です。結果は、要約データ フレーム (frequency_w) に渡されます。これまでの for ループ コードは次のようになります (小さなサンプルでは問題なく動作します)。

主な問題は、これまでのコードがデータベース全体 (80.000 ドキュメント) を実行するのに永遠にかかることです。したがって、コーディングに関して他に推奨事項があれば、メモリ使用量を減らすか、速度を上げることができれば幸いです。

さらに、極性関数を使用するために sentSplit を実行する必要があるため、データセット全体に対してもそのプロセスの速度を上げる方法、またはそれをループに含める方法を誰かが知っていれば幸いです。

事前にご協力いただきありがとうございます。

0 投票する
1 に答える
706 参照

regex - 置換値の単語境界で mgsub 関数を使用する

ベクトル内の文字列要素の部分文字列を空白に置き換えようとしています。以下は、検討中のベクトルです。

次に、mgsub関数をそのまま適用すると、次の出力が得られます。

したがって、リストを次のように変更して再実行します。

この関数で単語境界正規表現を機能させることができません。

0 投票する
1 に答える
656 参照

r - qdap check_spelling checkForRemoteErrors(val) のエラー: 1 つのノードでエラーが発生しました: 引数は異なる行数を意味します

エラーが発生しました

パッケージcheck_spellingで使用しようとすると。qdap提供されている数字 3 と 0 は、以下に提供されているデータに関連していますが、これははるかに大きなスペル チェック文字列の小さなサンプルにすぎず、スペル チェックと辞書として使用する文字列の両方に大きな文字列を渡すと、行番号が異なります。突然機能し始めたときに時々成功しましたが、プロセスを繰り返そうとするとすぐに同じエラーが再び発生します。

check_spelling_interactive()関数も使用すると、同じエラーが発生します。

私の理解では、スペル チェックと辞書として使用する単語はどちらも文字ベクトルにする必要があります。

のバージョンを更新しましたqdap。Windows 7 64、R Studio バージョン 0.99.467、R バージョン 3.2.1 で実行。

私はこれで髪を失っており、余裕があまりないので、どんな助けでも大歓迎です.

0 投票する
2 に答える
301 参照

r - テキスト内の単語のカウント (R): 結果が読めない

Rライブラリtmとを使用して、特定のテキスト内の単語を数えていますqdap。ベクトル ( words) に数語しかない場合、すべて問題ないように見えます。

しかし、ベクトル ( words) に含まれる単語が多すぎると、結果が文字化けして読めなくなります。


結果をデータフレーム/マトリックスに表示して、より簡単に読み取れるようにするにはどうすればよいですか?


おそらく「用語カウントのマトリックスを返す」(https://trinker.github.io/qdap/termco.htmltermco2mat )と思われる(ライブラリ)を使用してみました(以下を参照してください)が、エラーが発生します:qdap

または: