問題タブ [feature-selection]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1695 参照

pca - PCA を使用した機能選択

データセットは、N 個の要素と K 個の変数で構成されます。PCA を使用すると、変数の数を減らすことができますが、K 個の変数のうちどれが最も多くの情報を提供したかを確認するにはどうすればよいでしょうか?

たとえば、次のようなデータセットがあります。

1 列目は 2 列目と同じで、4 列目は 2*1st+5*3rd-5 の関係によって決定されます。したがって、1 列目と 3 列目はほとんどの情報を提供し、残りは追加情報を提供しません。しかし、PCA を使用してこれをどのように計算するのでしょうか?

0 投票する
2 に答える
2560 参照

java - 自然言語処理 - テキスト分類の機能

そこで、Weka SVM を使用してテキストを分類しようとしています。これまでのところ、SVM のトレーニングに使用する特徴ベクトルは、トレーニング テキストに表示されるユニグラムとバイグラムの TF-IDF 統計で構成されています。しかし、トレーニング済みの SVM モデルをテストして得た結果はまったく正確ではありませんでした。誰か私の手順についてフィードバックをいただけませんか? テキストを分類するために、次の手順に従っています。

  1. トレーニング テキストから抽出されたユニグラムとバイグラムで構成される辞書を構築する
  2. 各ユニグラム/バイグラムが各トレーニング テキストに出現する回数と、ユニグラム/バイグラムがトレーニング テキストに出現する回数を数えます
  3. ステップ 2 のデータを使用して、各ユニグラム/バイグラムの TF-IDF を計算します。
  4. ドキュメントごとに、辞書の長さである特徴ベクトルを構築し、ベクトルの各要素に対応する TF-IDF 統計を格納します (たとえば、ドキュメント 1 の特徴ベクトルの最初の要素は TF に対応します)。 -ドキュメント 1 に関連する辞書の最初の単語の IDF)
  5. 各特徴ベクトルにクラス ラベルを追加して、どのテキストがどの作者のものかを区別します
  6. これらの特徴ベクトルを使用して SVM をトレーニングします
  7. テスト テキストの特徴ベクトルは、トレーニング テキストと同じ方法で構築され、SVM によって分類されます。

また、より多くの機能を使用して SVM をトレーニングする必要があるのでしょうか? もしそうなら、この場合、どの機能が最も効果的ですか? どんな助けでも大歓迎です、ありがとう。

0 投票する
1 に答える
271 参照

database - リーフレットの描画: 編集可能なオブジェクトを制限し、データベースの一貫性を維持し、複数のオブジェクトを作成します

マップが埋め込まれた特別な wiki の一部として Leaflet Draw を使用する予定です。ユーザーは、wiki 内の 1 つまたは複数のページに関連する地理オブジェクトを描画できる必要があります。オブジェクトは wiki ページとしてデータベースに保存され、すべてのユーザーが変更できます。問題:

  1. 編集可能なオブジェクトの数を一度に 1 つだけに制限するにはどうすればよいですか?

  2. 2 人のユーザーが同時に同じオブジェクトを編集している場合、データベースの一貫性を保つ方法は?

  3. マルチオブジェクトを生成したり、複数のオブジェクト (ポリゴンなど) をスーパーオブジェクト (マルチポリゴン) に結合するにはどうすればよいですか?

  4. 私のアイデアに似たアプローチを知っている人はいますか?ありがとう。