問題タブ [tm]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
3595 参照

r - doc-term マトリックスを term-term マトリックスに変換する方法は?

私は dtm を用語 - 用語マトリックスに変換することを考えています。以下は正しくありません:

どのようにすればよいでしょうか?

0 投票する
4 に答える
10715 参照

r - R ステミング文字列/ドキュメント/コーパス

Rでステミングをしようとしていますが、個々のドキュメントでしか機能しないようです。私の最終的な目標は、ドキュメント内の各用語の頻度を示す用語ドキュメント マトリックスです。

次に例を示します。

この方法は、ステミング部分では機能しますが、用語ドキュメント マトリックス部分では機能しません。

代わりに、最初に用語ドキュメント マトリックスを作成しようとしましたが、今回は単語が語幹処理されません。

ここでは、単語は明らかにステミングされていません。

助言がありますか?

0 投票する
2 に答える
790 参照

r - Rでtxtファイルを使用してtmで隊を作成する際のエラー

R で tm パッケージを使用して、テキスト分析を実行しようとしています。次のエラーを受け取りました。

ディレクトリを手動で変更しました

このエラーを理解できません。どこで間違いを犯しているのか教えてください。

0 投票する
1 に答える
2028 参照

r - CSVファイルをコーパスに読み込む - Rのtmパッケージ

csv ファイルの内容をデータフレームソースに読み込みたいのですが、コーパスを作成しようとすると、常に次のように表示されます

コードは

dsはデータフレームソースmであり、コンテンツ、トピックなどをデータフレームのフィールドに割り当てるリストです。

0 投票する
1 に答える
298 参照

r - 小さなデータセットで R の tm パッケージがハングする

30k レコード (会社名およびその他の属性) の data.frame があります。dba_nm最長要素が 60 文字未満の会社名フィールドです。

R セッションのメモリ使用量が 100MB から 3GB に増加し、次のコードを試すとハングします?tm::VectorSource

0 投票する
2 に答える
542 参照

html - HTML ファイルから特定のコンテンツを TXT 形式に抽出するにはどうすればよいですか?

したがって、私の問題は、多くのフォーラム投稿を個別のtxtファイルに抽出して、現在ハードドライブにあることです。各ファイルには抽出したい情報が含まれており、そのうちのいくつかは既に抽出方法を把握しています。抽出する必要がある情報は次の形式です。

同じ「html ブロッ​​ク」内

1: このスレッドの (x) 件のメッセージ
2: メッセージは (いくつかの html コード) A HREF="link" (いくつかの html コード =

タスク 1 では、単に x を抽出する
必要があります。タスク 2 では、メッセージの返信先のリンクを抽出する必要があります。

さまざまな tm および XML パッケージを調べましたが、実際に何を使用するかを見つけることができませんでした。アドバイスをいただければ幸いです。

これは、txtファイルの1つがどのように見えるかです

0 投票する
1 に答える
6360 参照

tm - wordcloud パッケージ: 「strwidth(...) のエラー: 無効な 'cex' 値」を取得する

R 2.15.1 で tm および wordcloud パッケージを使用しています。DTM からワード クラウドを作成しようとしています。コードは次のとおりです。

最後のコマンドから次のエラーが発生します。

別の DTM で同じコードを使用したところ、問題なく動作し、ワード クラウドが表示されました。誰かがエラーの修正を教えてもらえますか?

ラヴィ

0 投票する
1 に答える
701 参照

r - DocumentTermMatrix 作成時の Unicode 記号

R で CRAN の TM パッケージを使用しています。コーパスに基づいて DocumentTermMatrix を作成する際に問題があります。問題は、UTF-8 コーパスに基づいて TermDocumentMatrix を作成すると、一部の単語が Unicode シンボルに変わることです。

戻り値:

コーパスを手動で検査すると、正しい出力が表示されます。

戻り値:

正しい条件で TermDocumentMatrix を取得する方法を知っている人はいますか? または、これらのユニコード記号を「読み取り可能な」出力に再度変換する方法はありますか?

注: print(Terms(tdm)) には print(corpus[[1]]) の単語は含まれません

0 投票する
2 に答える
6428 参照

r - R DocumentTermMatrixコントロールリストが機能せず、不明なパラメータを黙って無視します

次の2つのDTMがあります。

これを実装すると、2つの等しいDTMが表示され、を開くとdtmImproved、3つの記号が付いた単語が表示されます。minWordLengthパラメータが機能しないのはなぜですか?ありがとうございました!

0 投票する
1 に答える
1395 参照

c - strptime() に関する問題

関数strptime()を使用して、文字列からstruct tm. しかし、フィールドを確認すると、入力されていないフィールドがいくつかあります。だから私はマニュアルページをチェックしましたが、正しいことをしているように見えるので、何がうまくいかないのか途方に暮れています.

サンプル入力文字列:

strptime 関数:

%a は曜日、%d は日、%b は月、%Y は年、%T は HH:MM:SS および % であると理解しています。 Z は GMT です。

の出力tm struct

出力を生成するコード:

正しい方向へのプッシュは非常に役立ちます。ありがとう!