問題タブ [quanteda]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
769 参照

r - R は文書用語行列を構成し、値が空白で区切られた語句で構成される辞書と一致させる方法

R を使用してテキスト マイニングを行う場合、テキスト データを再処理した後、さらに探索するために文書用語マトリックスを作成する必要があります。でも中国語と同じように、英語にも「意味論的距離」や「機械学習」などいくつかのフェーズがあり、それらを単語に分割すると、まったく異なる意味を持ちます。値は、「セマンティック距離」、「機械学習」を含むなど、空白で区切られた用語で構成されます。ドキュメントが「単語の意味的距離を計算するために機械学習法を使用できる」場合、このドキュメントを辞書[「意味的距離」、「機械学習」]に適用すると、1x2マトリックスが返されます:[意味的距離、1 ;機械学習、1]

0 投票する
1 に答える
1065 参照

r - Quanteda を使用したテキスト分類のための Naive Bayes の実装

「カテゴリ」と「テキスト」の 2 つの列を持つ BBC 記事のデータセットがあります。タイプに基づいて記事のカテゴリ (つまり、ビジネス、エンターテイメント) を予測する Naive Bayes アルゴリズムを構築する必要があります。

私はQuantedaでこれを試みており、次のコードがあります:

predict() までスムーズに動作するようです。

誰でもこれを解決する方法について洞察を提供できますか? 私はまだテキスト分析と quanteda のコツをつかんでいます。ありがとうございました!

ここにデータセットへのリンクがあります。

0 投票する
1 に答える
843 参照

r - 「quanteda」パッケージで dfm 行列を連結

異なる数の列と行を同時に含む2つのdfm行列を連結する方法はありますか? 追加のコーディングで実行できるため、アドホック コードには興味がありませんが、存在する場合は一般的でエレガントなソリューションに興味があります。

例:

エラーを出します。

「tm」パッケージは、箱から出してその dfm 行列を連結できます。私の目的には遅すぎます。

また、'quanteda' の 'dfm' は S4 クラスであることを思い出してください。

0 投票する
1 に答える
384 参照

r - quanteda R パッケージで dfm 関数を実行すると、「無効なクラス “dfmSparse” オブジェクト」エラーが発生する

テキストを管理および分析するための R パッケージである quanteda を使用しています。そのコア関数の 1 つであるドキュメント頻度マトリックスの構築に使用される「dfm」で問題が発生しています。

関数の実行

コードとエラーが返されました

ご覧のとおり、関数は実行されていますが、「スパース行列の構築」の直後にスタックします。このエラーまたはそれに取り組む方法がわかりません。何かアドバイス?

0 投票する
1 に答える
2053 参照

r - R の LDA トピック モデルに単語をシードする

私は、「ユーロ懐疑論」または「ユーロセプティック」という用語を使用する基準に基づいて収集されたニュース記事のデータセットを持っています。これらの記事の主なトピックを特定するために、ldaパッケージを使用してトピック モデルを実行しています (dfmマトリックスが組み込まれています)。quantedaしかし、興味のある単語はどのトピックにも表示されません。したがって、これらの単語をモデルにシードしたいのですが、それを行う方法が正確にはわかりません。

このパッケージtopicmodelsでは、seedwords という引数が許可されていることがわかります。これは、 「matrixまたはオブジェクト クラスとして指定できます」simple_triplet_matrixが、他に指示はありません。asimple_triplet_matrixは文字列ではなく整数のみを受け取るようです。「euroscepticism」と「eurosceptic」という単語をモデルにシードすることを知っている人はいますか?

コードの短縮版は次のとおりです。