問題タブ [text-classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
144 参照

annotations - GATE アニーを使用して、段落全体 (または本文) を注釈としてタグ付けする方法を教えてください。

テキストの本文全体を注釈としてタグ付けするにはどうすればよいですか (Gate Annie)。たとえば、ツイートを分類しようとしています。ツイートをポジティブまたはネガティブなツイートに分類したいと思います。手動でタグ付けするのは時間がかかります。Jape を使用してこの活動を行うことは可能ですか? タグ付けされたツイートは機械学習に使用されます。

0 投票する
4 に答える
2493 参照

machine-learning - スケーラブルまたはオンラインのコア外マルチラベル分類器

この問題について、過去 2 ~ 3 週間、頭を悩ませてきました。各サンプルが複数のラベルに属する可能性があるマルチラベル (マルチクラスではない) の問題があります。

トレーニング データとして約 450 万のテキスト ドキュメント、テスト データとして約 100 万のテキスト ドキュメントがあります。ラベルは約 35K です。

私はscikit-learnを使用しています。特徴抽出のために、以前はまったくスケーリングしない TfidfVectorizer を使用していましたが、現在は HashVectorizer を使用しています。これはより優れていますが、ドキュメントの数を考えるとそれほどスケーラブルではありません。

SKlearn は、任意の推定器をフィードできる OneVsRestClassifier を提供します。マルチラベルの場合、LinearSVC と SGDClassifier のみが正しく機能していることがわかりました。私のベンチマークによると、SGD はメモリと時間の両方で LinearSVC より優れています。だから、私はこのようなものを持っています

しかし、これにはいくつかの深刻な問題があります。

  1. OneVsRest には、コア外学習を不可能にする partial_fit メソッドがありません。そのための代替手段はありますか?
  2. HashingVectorizer/Tfidf はどちらも単一のコアで動作し、n_jobs パラメーターはありません。ドキュメントのハッシュ化に時間がかかりすぎています。代替案/提案はありますか?また、n_features の値は正しいですか?
  3. 100 万のドキュメントでテストしました。ハッシュには 15 分かかり、clf.fit(X, y) になると、OvR が内部で LabelBinarizer を使用し、次元 (yx クラス) のマトリックスを割り当てようとするため、MemoryError を受け取りますが、これはかなり割り当てが不可能です。私は何をすべきか?
  4. 信頼性が高くスケーラブルなマルチラベル アルゴリズムを備えた他のライブラリはありますか? Genism と mahout は知っていますが、両方ともマルチラベルの状況に対応するものはありませんか?
0 投票する
3 に答える
11700 参照

scikit-learn - 1 つのクラス分類に使用するアルゴリズムは?

特定のトピックの 15000 以上のテキスト ドキュメントがあります。前者に基づいて言語モデルを構築したいと思います。これにより、このモデルにさまざまなトピックの新しいランダム テキスト ドキュメントを提示でき、新しいドキュメントが同じトピックのものであるかどうかをアルゴリズムが判断できるようになります。

などを試してみましたがsklearn.naive_bayes.MultinomialNBsklearn.svm.classes.LinearSVC次の問題があります。

これらのアルゴリズムには、複数のラベルまたはカテゴリを持つトレーニング データが必要であり、特定のトピックをカバーする Web ページしかありません。他のドキュメントにはラベルが付けられておらず、さまざまなトピックが含まれています。

ラベルが 1 つしかないモデルをトレーニングする方法、または一般的な進め方についてのガイダンスをいただければ幸いです。私がこれまでに持っているものは次のとおりです。

どうもありがとうございました。

0 投票する
2 に答える
3286 参照

data-mining - n-gram モデルを使用した自動テキスト分類

こんにちは、データマイニング初心者です。私の仕事は、n-gram メソッドを使用してテキスト ドキュメントを自動的に分類することです。

このトピックに関する適切なリソースが見つかりませんでした。このトピックを進める方法を教えてください。n-gram 分類に基づくチュートリアルはどこにありますか。

私の理解のために、このトピックに関するJavaソースコードが必要です。

前もって感謝します。

0 投票する
2 に答える
5583 参照

machine-learning - テキスト分類における N-gram と他の分類子

私はテキスト分類技術を初めて使用します。テキスト分類の N グラム アプローチと他の分類子 (決定木、KNN、SVM) ベースのテキスト分類の違いを知りたいです。

どちらが優れているか知りたいのですが、n-gram は分類子に分類されますか? n-gram は分類器技術の欠点を克服しますか?

このすべての手法に関する比較情報はどこで入手できますか。

前もって感謝します。

0 投票する
1 に答える
372 参照

java - 文字列意味認識・パターン認識

この問題を解決できるライブラリがあるかどうかは誰にもわかりません:

文字列のセットがあります。たとえば、画面の解像度とその周りにテキストがあります。

次に、800x600 または単に「Retina」などの別の文字列を取得し、この文字列が画面解像度を表す確率を表す数値を取得したいと考えています (値がセットに含まれている必要はありません)。

より具体的には、画面解像度だけでなく、より多くの分類があると考えてください。たとえば、CPU の周波数、RAM の MB/GB などを考えてみましょう。したがって、ソリューションはより一般的で、もちろんある程度の学習能力を備えている必要があります。