問題タブ [text-classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
5 に答える
1986 参照

algorithm - QWERTYキーボード配列を考慮したランダムキーボードヒットの検出

最近のウィキペディアの荒らし検出コンテストの勝者は、「 QWERTY キーボード レイアウトを考慮したランダムなキーボード ヒットの検出」によって検出が改善される可能性があることを示唆しています。

例:woijf qoeoifwjf oiiwjf oiwj pfowjfoiwjfo oiwjfoewoh

すでにこれを行うソフトウェアはありますか(できれば無料でオープンソース) ?

そうでない場合、これを達成することを目標とするアクティブな FOSS プロジェクトはありますか?

そうでない場合、そのようなソフトウェアをどのように実装することをお勧めしますか?

0 投票する
1 に答える
1036 参照

python - MAXent 分類器 NLTK 出力の理解

classifier.show_most_informative_features(10)MAXent classfierを理解しようとしています。たとえば、次の出力で、列が何を示しているのかわかりません。

0 投票する
3 に答える
10562 参照

svm - SVM と KNN を使用してテキスト ドキュメントを分類するにはどうすればよいですか

ほとんどすべての例は数字に基づいています。テキスト文書では、数字の代わりに単語があります。

では、これらのアルゴリズムをテキスト ドキュメントの分類に使用する方法の簡単な例を示していただけますか。

コード例は必要ありませんが、ロジックのみが必要です

擬似コードは非常に役立ちます

0 投票する
1 に答える
1502 参照

java - 自然言語処理 - テキストの特徴を特徴ベクトルに変換する

そこで私は自然言語処理プロジェクトに取り組んでおり、さまざまなスタイルの文章を分類する必要があります。テキストからセマンティックな特徴が既に抽出されていると仮定すると、Java で Weka を使用して、他の異なるテキストを分類するために使用できるこれらの特徴を使用して SVM 分類器をトレーニングする予定です。

私が問題を抱えている部分は、SVM をトレーニングするには、特徴を特徴ベクトルに変換する必要があることです。語彙の豊富さ、n-gram、句読点、段落数、段落の長さなどの機能をベクトルの数値として表現する方法がわかりません。誰かが正しい方向を指し示すことができれば、それは大歓迎です.

0 投票する
1 に答える
664 参照

machine-learning - 学習、検証、およびテストの分類子

私はテキスト分類の感情分析に取り組んでおり、Twitter からのツイートをポジティブ、ネガティブ、またはニュートラルの 3 つのカテゴリに分類したいと考えています。210 個のトレーニング データがあり、分類器として Naive Bayes を使用しています。トレーニング データのデータベースとして PHP と MySQL を使用して実装しています。私がやったことは順番にあります:

  1. 10-fold Cross Validationに基づいて、トレーニング データを 189 のトレーニング データと 21 のテスト データに分割しました。
  2. トレーニング データをデータベースに挿入して、分類子がトレーニング データに基づいて分類できるようにします。
  3. 次に、分類子を使用してテスト データを分類します。21件の予測結果が得られました。
  4. 10 分割交差検証に基づいて、手順 2 と 3 を 10 回繰り返します。
  5. 分類器の精度を 1 つずつ評価したので、10 個の精度結果が得られました。次に、結果の平均を取ります。

私が知りたいのは:

  1. 学習プロセスはどれですか? インプット、プロセス、アウトプットとは?
  2. 検証プロセスはどれですか? インプット、プロセス、アウトプットとは?
  3. テストプロセスはどれですか? インプット、プロセス、アウトプットとは?

これら 3 つのプロセス (学習、検証、およびテスト) に関する私の理解が正しいものであることを確認したいだけです。

0 投票する
1 に答える
892 参照

machine-learning - Naive Bayes を使用した分類の予測と、トレーニング セットにない特徴/単語の処理

Naive Bayes アルゴリズムを使用して、スパムまたは非スパムのテキスト分類問題を考えてみましょう。

質問は次のとおりです。

ドキュメント W についてどのように予測しますか = その単語セットに、モデルではまったく見られなかった新しい単語 wordX がある場合 (そのため、ラプラス平滑化確率が推定されていません)。

関連付けられている可能性がないため、現在のテキストに表示されていたとしても、その wordX を無視するのが通常のことですか? つまり、この問題を解決するためにラプラス スムージングが使用されることがありますが、その単語が決定的に新しい場合はどうでしょうか。

私が考えた解決策のいくつか:

1)分類を推定する際にその単語を無視するだけです(最も単純ですが、間違っていることもあります...?ただし、トレーニングセットが十分に大きい場合は、これがおそらく最善の方法です。あなたの機能を想定するのが合理的だと思います1M または 20M のデータがある場合は、十分に選択されています)。

2) その単語をモデルに追加し、モデルを完全に変更します。これは、語彙が変更されたため、どこでも確率を変更する必要があるためです (ただし、これには問題があります。これは、特に分析が 1M ドキュメントの場合、モデルを頻繁に更新する必要があることを意味する可能性があるためです)。 、 いう)

私はこれについていくつかの調査を行い、Dan Jurafsky NLP と NB のスライドを読み、coursera でいくつかのビデオを見て、いくつかの研究論文に目を通しましたが、役に立つと思うものを見つけることができませんでした。この問題はまったく新しいものではなく、何か (ヒューリスティック..?) があるはずです。そうでない場合は、それも知っておくとよいでしょう。

これがコミュニティにとって有用な投稿であることを願っています。事前に感謝します。

PS: 私が見た解決策の 1 つを使用して問題をもう少し明確にするために、スパムに未知の新しい単語 wordX があるとします。その単語に対して、1/ count(spams) + |Vocabulary を実行できます。 + 1|、私がそのようなことをする際に抱えている問題は、語彙のサイズを変更すると、分類するすべての新しいドキュメントに新しい機能と語彙の単語があるということですか? このビデオはその問題を解決しようとしているように見えますが、それが良いことなのか、それとも誤解していたのかはわかりません。

https://class.coursera.org/nlp/lecture/26

0 投票する
1 に答える
11477 参照

r - 外部関数呼び出しの NA/NaN/Inf (arg 6)

私は R を使用してテキスト マイニングでターム ペーパーを作成しています。私たちのタスクは、記事のトーン (ポジティブ/ネガティブ) を推測することです。記事はそれぞれのフォルダに保存されます。サンプルのトレーニングを通じて学習する分類システムを作成する必要があります。http://www.youtube.com/watch?v=j1V2McKbkLoのコードを再利用し ました。最後の行を除くコード全体が正常に実行されました。以下はコードです。

これを実行しようとすると、最後の行 (knn) でエラーが発生しました:

誰でも私を助けてください。また、他にもっと簡単で良い分類方法があれば教えてください。ありがとうございます。