問題タブ [quanteda]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R は文書用語行列を構成し、値が空白で区切られた語句で構成される辞書と一致させる方法
R を使用してテキスト マイニングを行う場合、テキスト データを再処理した後、さらに探索するために文書用語マトリックスを作成する必要があります。でも中国語と同じように、英語にも「意味論的距離」や「機械学習」などいくつかのフェーズがあり、それらを単語に分割すると、まったく異なる意味を持ちます。値は、「セマンティック距離」、「機械学習」を含むなど、空白で区切られた用語で構成されます。ドキュメントが「単語の意味的距離を計算するために機械学習法を使用できる」場合、このドキュメントを辞書[「意味的距離」、「機械学習」]に適用すると、1x2マトリックスが返されます:[意味的距離、1 ;機械学習、1]
r - Quanteda を使用したテキスト分類のための Naive Bayes の実装
「カテゴリ」と「テキスト」の 2 つの列を持つ BBC 記事のデータセットがあります。タイプに基づいて記事のカテゴリ (つまり、ビジネス、エンターテイメント) を予測する Naive Bayes アルゴリズムを構築する必要があります。
私はQuantedaでこれを試みており、次のコードがあります:
predict() までスムーズに動作するようです。
誰でもこれを解決する方法について洞察を提供できますか? 私はまだテキスト分析と quanteda のコツをつかんでいます。ありがとうございました!
r - 「quanteda」パッケージで dfm 行列を連結
異なる数の列と行を同時に含む2つのdfm行列を連結する方法はありますか? 追加のコーディングで実行できるため、アドホック コードには興味がありませんが、存在する場合は一般的でエレガントなソリューションに興味があります。
例:
エラーを出します。
「tm」パッケージは、箱から出してその dfm 行列を連結できます。私の目的には遅すぎます。
また、'quanteda' の 'dfm' は S4 クラスであることを思い出してください。
r - quanteda R パッケージで dfm 関数を実行すると、「無効なクラス “dfmSparse” オブジェクト」エラーが発生する
テキストを管理および分析するための R パッケージである quanteda を使用しています。そのコア関数の 1 つであるドキュメント頻度マトリックスの構築に使用される「dfm」で問題が発生しています。
関数の実行
コードとエラーが返されました
ご覧のとおり、関数は実行されていますが、「スパース行列の構築」の直後にスタックします。このエラーまたはそれに取り組む方法がわかりません。何かアドバイス?
r - R の LDA トピック モデルに単語をシードする
私は、「ユーロ懐疑論」または「ユーロセプティック」という用語を使用する基準に基づいて収集されたニュース記事のデータセットを持っています。これらの記事の主なトピックを特定するために、lda
パッケージを使用してトピック モデルを実行しています (dfm
マトリックスが組み込まれています)。quanteda
しかし、興味のある単語はどのトピックにも表示されません。したがって、これらの単語をモデルにシードしたいのですが、それを行う方法が正確にはわかりません。
このパッケージtopicmodels
では、seedwords という引数が許可されていることがわかります。これは、 「matrix
またはオブジェクト クラスとして指定できます」simple_triplet_matrix
が、他に指示はありません。asimple_triplet_matrix
は文字列ではなく整数のみを受け取るようです。「euroscepticism」と「eurosceptic」という単語をモデルにシードすることを知っている人はいますか?
コードの短縮版は次のとおりです。