問題タブ [tm]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - doc-term マトリックスを term-term マトリックスに変換する方法は?
私は dtm を用語 - 用語マトリックスに変換することを考えています。以下は正しくありません:
どのようにすればよいでしょうか?
r - R ステミング文字列/ドキュメント/コーパス
Rでステミングをしようとしていますが、個々のドキュメントでしか機能しないようです。私の最終的な目標は、ドキュメント内の各用語の頻度を示す用語ドキュメント マトリックスです。
次に例を示します。
この方法は、ステミング部分では機能しますが、用語ドキュメント マトリックス部分では機能しません。
代わりに、最初に用語ドキュメント マトリックスを作成しようとしましたが、今回は単語が語幹処理されません。
ここでは、単語は明らかにステミングされていません。
助言がありますか?
r - Rでtxtファイルを使用してtmで隊を作成する際のエラー
R で tm パッケージを使用して、テキスト分析を実行しようとしています。次のエラーを受け取りました。
ディレクトリを手動で変更しました
このエラーを理解できません。どこで間違いを犯しているのか教えてください。
r - CSVファイルをコーパスに読み込む - Rのtmパッケージ
csv ファイルの内容をデータフレームソースに読み込みたいのですが、コーパスを作成しようとすると、常に次のように表示されます
コードは
ds
はデータフレームソースm
であり、コンテンツ、トピックなどをデータフレームのフィールドに割り当てるリストです。
r - 小さなデータセットで R の tm パッケージがハングする
30k レコード (会社名およびその他の属性) の data.frame があります。dba_nm
最長要素が 60 文字未満の会社名フィールドです。
R セッションのメモリ使用量が 100MB から 3GB に増加し、次のコードを試すとハングします?tm::VectorSource
。
html - HTML ファイルから特定のコンテンツを TXT 形式に抽出するにはどうすればよいですか?
したがって、私の問題は、多くのフォーラム投稿を個別のtxtファイルに抽出して、現在ハードドライブにあることです。各ファイルには抽出したい情報が含まれており、そのうちのいくつかは既に抽出方法を把握しています。抽出する必要がある情報は次の形式です。
同じ「html ブロック」内
1: このスレッドの (x) 件のメッセージ
2: メッセージは (いくつかの html コード) A HREF="link" (いくつかの html コード =
タスク 1 では、単に x を抽出する
必要があります。タスク 2 では、メッセージの返信先のリンクを抽出する必要があります。
さまざまな tm および XML パッケージを調べましたが、実際に何を使用するかを見つけることができませんでした。アドバイスをいただければ幸いです。
これは、txtファイルの1つがどのように見えるかです
tm - wordcloud パッケージ: 「strwidth(...) のエラー: 無効な 'cex' 値」を取得する
R 2.15.1 で tm および wordcloud パッケージを使用しています。DTM からワード クラウドを作成しようとしています。コードは次のとおりです。
最後のコマンドから次のエラーが発生します。
別の DTM で同じコードを使用したところ、問題なく動作し、ワード クラウドが表示されました。誰かがエラーの修正を教えてもらえますか?
ラヴィ
r - DocumentTermMatrix 作成時の Unicode 記号
R で CRAN の TM パッケージを使用しています。コーパスに基づいて DocumentTermMatrix を作成する際に問題があります。問題は、UTF-8 コーパスに基づいて TermDocumentMatrix を作成すると、一部の単語が Unicode シンボルに変わることです。
戻り値:
コーパスを手動で検査すると、正しい出力が表示されます。
戻り値:
正しい条件で TermDocumentMatrix を取得する方法を知っている人はいますか? または、これらのユニコード記号を「読み取り可能な」出力に再度変換する方法はありますか?
注: print(Terms(tdm)) には print(corpus[[1]]) の単語は含まれません
r - R DocumentTermMatrixコントロールリストが機能せず、不明なパラメータを黙って無視します
次の2つのDTMがあります。
これを実装すると、2つの等しいDTMが表示され、を開くとdtmImproved
、3つの記号が付いた単語が表示されます。minWordLength
パラメータが機能しないのはなぜですか?ありがとうございました!
c - strptime() に関する問題
関数strptime()
を使用して、文字列からstruct tm
. しかし、フィールドを確認すると、入力されていないフィールドがいくつかあります。だから私はマニュアルページをチェックしましたが、正しいことをしているように見えるので、何がうまくいかないのか途方に暮れています.
サンプル入力文字列:
strptime 関数:
%a は曜日、%d は日、%b は月、%Y は年、%T は HH:MM:SS および % であると理解しています。 Z は GMT です。
の出力tm struct
出力を生成するコード:
正しい方向へのプッシュは非常に役立ちます。ありがとう!