問題タブ [categorization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
44 参照

performance - テキストマッチングのパフォーマンスを向上させるデータ構造

一部のテキストを、そのテキストに最も適したカテゴリに分類する作業を行っています。最初のステップとして、単純なテキスト マッチング コードを作成します。テキストセットのテキストの単語を、いくつかのカテゴリを示す単語と比較しています。

この単純な検索の複雑さが O(n^4) になりすぎます。

Text : 多くのハリウッド映画は素晴らしいものです。映画愛好家は彼らにはまっています。( 1 文に n 個の単語と m 個の文)

カテゴリは次のとおりです: 映画、歌、スポーツなど ( p 個のカテゴリにはそれぞれ x 個の単語があります)

映画の指示語-[movie、sinema、film ...] (1 つのカテゴリの x 語)

したがって、検索時間は O (m *n * p * x) になり、大きすぎる可能性があります。

複雑さを単純化するためのデータ構造/方法を提案してもらえますか?

0 投票する
1 に答える
2517 参照

python-2.7 - NLTK と Python で分類されたコーパス リーダーを設定する必要がある

Jacob Perkins の著書「Python Text Processing with NLTK 2.0 Cookbook」による NLTK とテキストの分類に慣れてきました。

私のコーパス ドキュメント/テキストはそれぞれテキストの段落で構成されているため、それぞれが別のファイルではなく別のファイル行にあります。このような段落/行の数は約 200 万です。したがって、機械学習インスタンスには約 200 万あります。

ファイルの各行 (テキストの段落 - ドメイン タイトル、説明、キーワードの組み合わせ) は、特徴抽出の対象です: 機械学習アルゴリズムのインスタンスにするためのトークン化など。

私はそのような 2 つのファイルを持っており、すべての長所と短所が含まれています。

CategorizedCorpusReader にロードするにはどうすればよいですか? 出来ますか?

以前に scikit などの他のソリューションを試しましたが、最終的に NLTK を選択して、結果を簡単に開始できるようにしました。

0 投票する
1 に答える
3331 参照

r - R 関数 -- 年齢グループ + Null 年齢を計算する

年齢グループを分類しようとしていますが、Null 年齢がある可能性があります。グループ「0-4」、「5-24」、「25-49」、「50-64」、「64 歳以上」、および「Null Age」が必要でした。

私はRの初心者です。他人のコードを変更しようとしています。

年齢層を計算する

元のコードは次のとおりです。

実行すると、次のエラーが表示されます。

if (this.yearsOfAge < 5) { のエラー: TRUE/FALSE が必要な場所に値がありません

さらに: 警告メッセージ:

1: mysqlExecStatement(conn, statement, ...) 内: RS-DBI ドライバーの警告: (文字としてインポートされた列 1 の認識されない MySQL フィールド タイプ 7)

2: 関数内 (this.age, this.age_units) : 強制によって導入された NA

0 投票する
1 に答える
1835 参照

java - weka を使用したテキスト分類器: 分類器の問題を正しくトレーニングする方法

Weka を使用してテキスト分類器を構築しようとしていますdistributionForInstanceが、クラスの確率1.0は 1 つ0.0のケースと他のすべてのケースにあるため、classifyInstance常に予測と同じクラスを返します。トレーニングの何かが正しく機能しません。

ARFFトレーニング

トレーニング方法

試験方法

短いメッセージ用のテキスト分類子を作成したいのですが、このコードはこのチュートリアルhttp://preciselyconcise.com/apis_and_installations/training_a_weka_classifier_in_java.phpに基づいています。問題は、クラスの確率が正しくないため、分類器が testing.arff 内のほぼすべてのメッセージに対して間違ったクラスを予測することです。training_set_prova_tent.arff には、クラスごとに同じ数のメッセージがあります。私がフォローしている例では、featureWords.dat を使用し、メッセージに存在する場合は 1.0 を単語に関連付けます。代わりに、training_set_prova_tent に存在する単語とテストに存在する単語を使用して独自の辞書を作成し、すべての単語に関連付けます。発生数。

PS私はこれがフィルターStringToWordVectorでできることを正確に知っていますが、トレーニングセット用とテストセット用の2つのファイルでこのフィルターを使用する方法を説明する例は見つかりませんでした。そのため、見つけたコードを適応させる方が簡単なようです。

どうもありがとうございました

0 投票する
2 に答える
340 参照

r - 参照テーブルを使用してRのデータフレームに行を挿入するには?

次の形式の参照テーブルまたはルックアップ テーブルとして使用したいデータ フレーム (ラベル) があります。

参照テーブルを使用するデータ フレームは (test, ncol = 564, nrow = 2947) で、最初の 3 つの colnames は (test_subject, test_label(num 1-6), data_set) であり、test_label(1-6) は参照される文字列に等しいその上。

ルックアップテーブルを使用して「activity_label」という新しい列を挿入する方法を誰かが教えてくれませんか?その列の各観測値は、参照テーブルから参照された番号に相当する文字列に対応します。

たとえば、test_label の行 1 が 5 の場合、activity_label の行 1 は「立っている」となります。

ご協力ありがとうございました。

#

マージ方法を使用した後:

残りの dfs の構造を分析する