“tm”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

3595 参照

r - doc-term マトリックスを term-term マトリックスに変換する方法は?

私は dtm を用語 - 用語マトリックスに変換することを考えています。以下は正しくありません:

どのようにすればよいでしょうか？

2012-07-21T05:11:04.010

0 投票する

4 に答える

10715 参照

r - R ステミング文字列/ドキュメント/コーパス

Rでステミングをしようとしていますが、個々のドキュメントでしか機能しないようです。私の最終的な目標は、ドキュメント内の各用語の頻度を示す用語ドキュメントマトリックスです。

次に例を示します。

この方法は、ステミング部分では機能しますが、用語ドキュメントマトリックス部分では機能しません。

代わりに、最初に用語ドキュメントマトリックスを作成しようとしましたが、今回は単語が語幹処理されません。

ここでは、単語は明らかにステミングされていません。

助言がありますか？

r nlp stemming tm

2012-08-09T04:17:09.413

0 投票する

2 に答える

790 参照

r - Rでtxtファイルを使用してtmで隊を作成する際のエラー

R で tm パッケージを使用して、テキスト分析を実行しようとしています。次のエラーを受け取りました。

ディレクトリを手動で変更しました

このエラーを理解できません。どこで間違いを犯しているのか教えてください。

r tm

2012-08-22T06:40:29.943

0 投票する

1 に答える

2028 参照

r - CSVファイルをコーパスに読み込む - Rのtmパッケージ

csv ファイルの内容をデータフレームソースに読み込みたいのですが、コーパスを作成しようとすると、常に次のように表示されます

コードは

dsはデータフレームソースmであり、コンテンツ、トピックなどをデータフレームのフィールドに割り当てるリストです。

r tm

2012-08-24T03:54:59.077

0 投票する

1 に答える

298 参照

r - 小さなデータセットで R の tm パッケージがハングする

30k レコード (会社名およびその他の属性) の data.frame があります。dba_nm最長要素が 60 文字未満の会社名フィールドです。

R セッションのメモリ使用量が 100MB から 3GB に増加し、次のコードを試すとハングします?tm::VectorSource。

r tm

2012-08-30T04:37:00.823

0 投票する

2 に答える

542 参照

html - HTML ファイルから特定のコンテンツを TXT 形式に抽出するにはどうすればよいですか?

したがって、私の問題は、多くのフォーラム投稿を個別のtxtファイルに抽出して、現在ハードドライブにあることです。各ファイルには抽出したい情報が含まれており、そのうちのいくつかは既に抽出方法を把握しています。抽出する必要がある情報は次の形式です。

同じ「html ブロック」内

1: このスレッドの (x) 件のメッセージ
2: メッセージは (いくつかの html コード) A HREF="link" (いくつかの html コード =

タスク 1 では、単に x を抽出する
必要があります。タスク 2 では、メッセージの返信先のリンクを抽出する必要があります。

さまざまな tm および XML パッケージを調べましたが、実際に何を使用するかを見つけることができませんでした。アドバイスをいただければ幸いです。

これは、txtファイルの1つがどのように見えるかです

html xml r text tm

2012-09-08T16:12:38.177

0 投票する

1 に答える

6360 参照

tm - wordcloud パッケージ: 「strwidth(...) のエラー: 無効な 'cex' 値」を取得する

R 2.15.1 で tm および wordcloud パッケージを使用しています。DTM からワードクラウドを作成しようとしています。コードは次のとおりです。

最後のコマンドから次のエラーが発生します。

別の DTM で同じコードを使用したところ、問題なく動作し、ワードクラウドが表示されました。誰かがエラーの修正を教えてもらえますか?

ラヴィ

tm

2012-09-13T06:06:08.087

0 投票する

1 に答える

701 参照

r - DocumentTermMatrix 作成時の Unicode 記号

R で CRAN の TM パッケージを使用しています。コーパスに基づいて DocumentTermMatrix を作成する際に問題があります。問題は、UTF-8 コーパスに基づいて TermDocumentMatrix を作成すると、一部の単語が Unicode シンボルに変わることです。

戻り値：

コーパスを手動で検査すると、正しい出力が表示されます。

戻り値：

正しい条件で TermDocumentMatrix を取得する方法を知っている人はいますか? または、これらのユニコード記号を「読み取り可能な」出力に再度変換する方法はありますか?

注: print(Terms(tdm)) には print(corpus[[1]]) の単語は含まれません

r unicode text-mining tm

2012-10-11T09:35:39.343

0 投票する

2 に答える

6428 参照

r - R DocumentTermMatrixコントロールリストが機能せず、不明なパラメータを黙って無視します

次の2つのDTMがあります。

これを実装すると、2つの等しいDTMが表示され、を開くとdtmImproved、3つの記号が付いた単語が表示されます。minWordLengthパラメータが機能しないのはなぜですか？ありがとうございました！

r matrix controls term tm

2012-11-13T18:54:41.060

0 投票する

1 に答える

1395 参照

c - strptime() に関する問題

関数strptime()を使用して、文字列からstruct tm. しかし、フィールドを確認すると、入力されていないフィールドがいくつかあります。だから私はマニュアルページをチェックしましたが、正しいことをしているように見えるので、何がうまくいかないのか途方に暮れています.

サンプル入力文字列:

strptime 関数:

%a は曜日、%d は日、%b は月、%Y は年、%T は HH:MM:SS および % であると理解しています。 Z は GMT です。

の出力tm struct

出力を生成するコード:

正しい方向へのプッシュは非常に役立ちます。ありがとう！

c struct strptime tm

2012-11-17T20:44:05.227

問題タブ [tm]

Reference