問題タブ [quanteda]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - quanteda パッケージの textmodel() で NB モデルを使用するとエラーが発生する
quanteda を使用して作成した dfm にモデルを適合させようとしています。次のエラーが表示されます。何か案は??
ps モバイル アプリケーションの次の単語を予測するモデルを作成しています。私は Naive Bayes しか知らないので、このパッケージの他のモデルには詳しくありません。だから気軽にお勧め。
r - dfm() 出力に ID 番号を含める
ID 番号列とテキスト列を含むデータセットがあり、quanteda
パッケージを使用してテキスト データに対して LIWC 分析を実行しています。これが私のデータ設定の例です:
を使用してLIWC分析を実行できましたscores <- dfm(as.character(mydata$text), dictionary = liwc)
しかし、結果 ( View(scores)
) を表示すると、最終結果で関数が元の ID 番号 (19、101、43、12) を参照していないことがわかります。代わりに、row.names
列が含まれていますが、説明的でない識別子 (例: "text1"、"text2") が含まれています。
dfm()
関数の出力に ID 番号を含めるにはどうすればよいですか? ありがとうございました!
r - quanteda ngram は mac では動作しますが、windows 7 では動作しません
Johns Hopkins Capstone プロジェクトのために処理している一連のテキストがあります。私はコアテキスト処理ライブラリとして quanteda を使用しています。自宅では Macbook Pro を使用し、職場では Windows 7 64 ビットを使用しています。R スクリプトが Mac では正しく実行されているように見えますが、Win7 システムでは失敗します。コースの制限により原文資料を提供することができません。助けを得るために、以下に十分な情報を提供できることを願っています。私の現在のアプローチは、テキスト ファイルからコーパスを作成し、それを ngram なしでトークン化し、トークン化されたファイルで ngram を実行することです。以下は私のコードスニペットです。
次のようにテキスト ファイルからデータを取得します。
tmp オブジェクトは Rds ファイルに保存されます。
次の関数は quanteda 要素の周りで使用されます
以下は、ファイルから ngrams に進みます。
以下は、スクリプトからの出力です。
私の Mac では、Making ngrams は生成されたものに関する統計を提供しますが、Win7 では上記のエラーが見られます。
これをRコンソールで実行しています。
システムインフォメーション:
R バージョン 3.2.3 (2015-12-10) -- 「木製のクリスマス ツリー」 Copyright (C) 2015 The R Foundation for Statistical Computing Platform: x86_64-w64-mingw32/x64 (64 ビット)
Quanteda バージョン: 0.9.0-1 日付: 2015-11-26
前もって感謝します。
r - Windows の R は一部の文字を処理できません
Linux で LDA を実行したところ、トピック 2 の「ø」などの文字は表示されませんでしたが、Windows で実行すると表示されます。誰もこれに対処する方法を知っていますか? パッケージquanteda
とtopicmodels
.
編集:
データ: https://www.dropbox.com/s/tdr9yok7tp0pylz/technology201501.csv
コードは次のようなものです。
r - dfmSparse を Quanteda パッケージから R のデータ フレームまたはデータ テーブルに変換する
トークン化され、ngrams (unigrams、bigrams、trigrams、および fourgrams) を使用する dfmSparse オブジェクト (大、2.1GB) があり、それを列を持つデータ フレームまたはデータ テーブル オブジェクトに変換したいと考えています: Content および Frequency .
リストから外そうとしましたが、うまくいきませんでした。私はNLPの初心者で、使用方法がわかりません。アイデアがなく、ここでもGoogleでも解決策が見つかりませんでした。
データに関する情報:
ありがとう!
編集済み:これは、コーパスからデータセットを作成した方法です:
r - topicmodels を使用した Quanteda: 削除されたストップワードが結果に表示されます (中国語)
私のコード:
コードが機能し、結果が表示されます。出力の例を次に示します。
これが問題です。私の投稿はすべてセグメント化されており (中国語では必要な前処理ステップ)、ストップ ワードが削除されています。それにもかかわらず、トピック モデルは、既に削除された 1 文字の停止語を含むトピックを返します。生の .txt ファイルを開いて、特定の 1 文字のストップ ワードに対して ctrl-f を実行すると、結果が返されません。しかし、これらの用語は R コードから返されたトピックに表示されます。これはおそらく、個々の文字が他の複数文字の単語の一部として出現するためです。たとえば、就はストップワードとして扱われる前置詞ですが、成就は「成功」を意味します。
これに関連して、特定の用語が分割されています。たとえば、私が調査しているイベントの 1 つには、ロシアのプーチン大統領 (「普京」) への言及が含まれています。ただし、トピック モデルの結果では、"普" と "京" のエントリが別々に表示され、"普京" のエントリはありません。(未加工のテキストの最初の単語と比較して、出力トピック 2 の 10 行目と 11 行目を参照してください。)
ここで発生する追加のトークン化ステップはありますか?
編集:再現可能にするために変更されました。なんらかの理由で、紹介の段落も削除するまで投稿できませんでした。
r - R と Quanteda を使用した大規模なコーパスでの n-gram の計算
優れた Quanteda パッケージを使用して、テキストの大規模なコーパス (オブジェクト サイズは R で約 1Gb) から n グラムを構築しようとしています。利用可能なクラウド リソースがないため、自分のラップトップ (Windows および/または Mac、12Gb RAM) を使用して計算を行っています。
データを断片にサンプリングすると、コードが機能し、さまざまなサイズの n-gram の (部分的な) dfm が得られますが、コーパス全体でコードを実行しようとすると、残念ながらこのコーパス サイズでメモリ制限に達します。次のエラーが発生します (ユニグラム、単一単語のコード例):
n > 1 で n-gram を構築しようとすると、さらに悪化します。
この関連記事を見つけましたが、密行列強制の問題であり、後で解決されたようで、私の場合は役に立ちません。
コーパス データを分割することなく、限られた量のメモリでこれを処理するより良い方法はありますか?
[編集] 要求どおり、sessionInfo() データ:
r - quanteda で文頭マーカーと文末マーカーを保持する方法
quanteda
Rのパッケージを使用して3グラムを作成しようとしています。
以下のコードのように、n グラムの文頭マーカーと文末マーカー、およびを保持する方法を見つけるのに苦労してい<s>
ます</s>
。
keptFeatures
それらに一致する正規表現を使用してそれらを維持する必要があると思いましたが、シェブロンマーカーは常に削除されます。
シェブロンマーカーが削除されないようにするにはどうすればよいですか、または文の最初と最後を で区切る最良の方法は何quanteda
ですか?
おまけの質問として、docfreq(mydfm)
overの利点は何colSums(mydfm)
ですか。 str(colSums(mydfm)) と str(docfreq(mydfm)) の結果はほぼ同じです (Named num [1:n]
前者、Named int [1:n]
後者)?
編集:
コード スニペットで keepFeatures を keepFeatures に修正しました。
r - N-gram をコーパスに実装する Quanteda Error
R のコーパスに quanteda を実装しようとしていますが、次のようになっています。
私はこれについてあまり経験がありません。データセットのダウンロードは次のとおりです: https://www.dropbox.com/s/ho5tm8lyv06jgxi/TwitterSelfDriveShrink.csv?dl=0
コードは次のとおりです。