問題タブ [document-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
text - 関連記事を提案するための、試行錯誤された真のアルゴリズムは何ですか?
かなり一般的な状況です、私は賭けます。あなたはブログやニュースサイトを持っていて、たくさんの記事やブログ、またはあなたがそれらと呼んでいるものがあり、それぞれの下部に、関連しているように見える他の人を提案したいと思います。
各アイテムに関するメタデータはほとんどないと仮定しましょう。つまり、タグやカテゴリはありません。タイトルと著者名を含む、1つの大きなテキストの塊として扱います。
関連する可能性のあるドキュメントをどのように見つけますか?
私は実際のアルゴリズムに興味があり、すぐに使えるソリューションではありませんが、rubyやpythonで実装されているものを調べたり、mysqlやpgsqlに依存したりしても大丈夫です。
編集:現在の答えはかなり良いですが、もっと見たいです。たぶん、1つか2つのもののためのいくつかの本当に裸のサンプルコード。
r - ドキュメント分類の決定木
こんにちは私は、ドキュメント分類に決定木を使用することが可能であるかどうかを知りたいと思いました。そうであれば、データ表現はどのようにすべきですか?デシジョンツリーにRパッケージパーティを使用していることを知っています。
text - SVMマルチクラステキスト分類
ニュースデータセットを分類したいのですが、トレーニングデータはIPTCサブジェクトコード(階層分類)で分類されています。私のプロジェクトでは、svmを使用する必要があります。
特徴抽出、ステミング、ストップワードの削除のすべてを実行しました...
私はほとんどsvmマルチクラスに必要なファイル形式を持っています:
これは次のようなものです:
svmmulticlassの使い方がわかりません
私はまた、1つについて聞いたことがあります-すべてに対して、私はそれが何であるかわかりません
それについてのチュートリアルや使い方を教えてください
よろしく
algorithm - テキスト分類/分類アルゴリズム
私の目的は、[半]自動的にテキストをさまざまなカテゴリに割り当てることです。ユーザー定義のカテゴリのセットと、各カテゴリのテキストのセットがあります。理想的なアルゴリズムは、人間が定義した分類から学習し、新しいテキストを自動的に分類できる必要があります。そのようなアルゴリズムと、おそらく ше を実装する .NET ライブラリを提案できる人はいますか?
machine-learning - 分類の数値的特徴として単語を含める方法
単語自体を機械学習アルゴリズムの機能として使用する最良の方法は何ですか?
特定の段落から単語に関連する機能を抽出する必要がある問題。辞書のインデックスを数値特徴として使用する必要がありますか? もしそうなら、どうすればこれらを正規化できますか?
一般に、単語自体は NLP の特徴としてどのように使用されますか?
nlp - ダウンロード用の辞書の単語
誰かが頻度情報を含む辞書の単語リストを見つける場所についての提案を提供できますか?
理想的には、ソースは北米のさまざまな英語の単語になります。
machine-learning - LibSVM と非数値データ
LibSVM を使用してテキストの分類を行うことに興味があります。用語/単語を数値データに変換して、LibSVM が理解できるようにする方法を教えてください。
ありがとうございました!
machine-learning - Web ページからの Web サイト タイプの分類
一部のWebページを解析してWebサイトの種類にタグを付けるための信頼できる/展開されたアプローチ、アルゴリズム、またはツールはありますか?
例: フォーラム、ブログ、プレスリリース サイト、ニュース、E-Comm など。
これを判断できる、明確に定義された特性 (静的ルール) を探しています。そうでない場合は、機械学習モデルが役立つことを願っています。
提案/アイデア?
algorithm - 遺伝的アルゴリズムを使用した文書分類
大学向けのプロジェクトで少し問題があります。
遺伝的アルゴリズムを使用して文書分類を実装する必要があります。
私はこの例を見て、(たとえば) 遺伝的アルゴリズムの原理を理解しましたが、文書分類でそれらをどのように実装できるかはわかりません。フィットネス機能がわかりません。
これが私がこれまでになんとか考えたものです(おそらく完全に間違っています...)
カテゴリがあり、各カテゴリがいくつかのキーワードで説明されていることを受け入れます。
ファイルを単語に分割します。
ファイルからのランダムな単語で満たされた配列 (たとえば 100 個の配列ですが、ファイルのサイズによって異なります) から最初の母集団を作成します。
1:
集団内の各子供に最適なカテゴリを選択します (その中のキーワードを数えることによって)。
母集団内の 2 人の子供をそれぞれクロスオーバーします (各子供の半分を含む新しい配列) - "crossover" クロスオーバー
から残された残りの子供を、ファイルからランダムに使用されていない単語で埋めます - "evolution??"
新しい母集団からのランダムな子のランダムな単語を、ファイルからのランダムな単語に置き換えます (使用されているかどうかに関係なく) - "mutation"
最良の結果を新しい母集団にコピーします。
人口制限に達するか、カテゴリが十分な回数見つかるまで 1 に移動します。
これが正しいかどうかはわかりませんが、アドバイスをいただければ幸いです。
とても感謝しています!