問題タブ [categorization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
classification - lingpipe を使用した分類
私の学術研究プロジェクトの一環として、Web から一連の URL を取得するアプリケーションを構築しようとしています。タスクは、これらの各 URL をいくつかのカテゴリに分類することです。
たとえば、次の URL はクリケットに関するものですhttp://www.espncricinfo.com/icc_cricket_worldcup2011/content/current/story/499851.html この特定の URL を分類子に渡すと、出力カテゴリは「スポーツ」となるはずです。 .
このために、lingpipe 分類子を使用しています。分類チュートリアルに従い、demo フォルダーにあるデモを実行しました。以下のリンクからダウンロードした 20 個のニュース データ セットをダウンロードしました。 http://people.csail.mit.edu/people/jrennie/20Newsgroups
その後、トレーニング サンプルのサイズを 20 から 8 に減らし、分類のデモを実行しました。データを正常にトレーニングし、データをテストすることもできました。
しかし問題は、ドキュメントのカテゴリをテストするたびに分類子をトレーニングする必要があるということです。ドキュメントの分類を実行すると、データのトレーニングとテストの両方に 4 分かかります。
トレーニング済みデータを 1 回保存して、分類を複数回実行できますか?
c# - 座標のリストからモーションデータを抽出する
タイムスタンプ付きの座標(mm単位のX、Y、Z)の一連のCSVファイルがあります。それらからモーションデータを抽出する最も簡単な方法は何でしょうか?
測定可能なもの
抽出したい情報は次のとおりです。
- 方向転換の数
- 最初と最後の動きの初期加速
- ...そしてこれらの動きの方位(角度)
- 非定常時の平均速度
理想的には、最終的には動きのパターンを分類できるようにしたいので、これを行う方法を提案できる人にはボーナスポイントがあります。私がこれを行うことができる1つの方法は、座標からモーションの写真/ビデオを生成し、それらを分類するように人間に依頼することであると私は思います-これをどのように行うかについての提案は大歓迎です。
ノイズ
厄介なのは、測定値がノイズで汚染されているという事実です。これを克服するために、各録音の前に少なくとも20秒間の静止があり、これは一種の「ノイズプロファイル」として機能します。ただし、これを実装する方法はわかりません。
詳細
それが役立つ場合、記録される動きは、単純なつかみ作業中の人の手の動きです。データは、手首に取り付けられた磁気モーショントラッカーを使用して生成されます。また、私はC#を使用していますが、数学は言語に依存しないと思います。
編集
- 磁気トラッカーの仕様:http ://www.ascension-tech.com/realtime/RTminiBIRD500_800.php
- サンプルデータファイル:http ://tdwright.co.uk/sample.csv
バウンティ
賞金については、いくつかの(擬似)コード例を実際に見てみたいと思います。
java - ウィキペディアの単語からカテゴリを取得する方法は?
単語間のカテゴリの抽出に問題があります。クラスター内にいくつかの単語 (「apple」、「iMac」、「snowleopard」) があり、その単語の中からカテゴリを取得したいと考えています。
("apple","iMac","snowleopard") --> "Mac OS X"
WordNet などの字句データベースを使用してみましたが、うまくいきません。他の方法を探していて、ウィキペディアが役立つことがわかりました。ウィキペディア用のJavaライブラリはありますか? そして、私が上で述べたようなタスクを行う方法は? ありがとう
ruby - Railsでのスパム防止
ユーザーが他のユーザーにメッセージを送信できるRailsアプリがあります。問題は、偽のメッセージを送信する多くのスパマーを引き付けるタイプのサイトであるということです。
Akismet( rakismet経由)やDefensio(defender経由)のようないくつかのスパムサービスをすでに知っています。これらの問題は、ユーザーがすでに送信したメッセージを考慮していないように見えることです。私のサイトで見られるスパムの種類は、ユーザーが同じ(または非常に類似した)メッセージを他の多くのユーザーに送信する場所です。そのため、少なくとも少数の過去のメッセージと比較して、スパムと見なされないほど十分に異なっていることを確認できるようにしたいと思います。
これまでのところ、私が遭遇した最高のものは、2つの文字列間の差の数を計算するText::Levenshtein距離の実装です。差の数を文字列の長さで割って計算できると思います。特定のしきい値を超えている場合は、スパムとは見なされません。
私が遭遇したもう1つのことは、 Classifier :: Bayesです。これは、何かがどのカテゴリに分類されるかを最もよく推測します。まだこれについて熟考しています。
私は間違った場所を見ているだけかもしれないと感じています、そして多分そこにこのような何かのためのより良い解決策がすでにあるかもしれません。おそらく私はもう少し便利なものを見つけるために間違った単語を探しています。
algorithm - テキストを分類するときに、カテゴリを自動的に相互にリンクする
私は、大量の短いテキストをデータマイニングし、既存のカテゴリ名の大きなリストに基づいてこれらを分類するプロジェクトに取り組んできました。これを行うには、最初にデータから適切なテキスト コーパスを作成して、分類のための参照ドキュメントを作成し、次に分類の品質を許容レベルまで上げる方法を見つけなければなりませんでした。この部分は終了しました (幸いなことに、テキストの分類は、多くの人が多くの研究を行ってきたものです)。
次の問題は、さまざまなカテゴリを計算で相互にリンクする良い方法を見つけようとしているところです。つまり、「車」と「シボレー」が何らかの関連性があることをどのように認識するかを理解することです。これまでのところ、Cavnar や Trenkle などで説明されている N-Gram 分類方法を利用して、各カテゴリに対して作成したさまざまな参照ドキュメントを比較してみました。残念ながら、私がその方法から得た最高の結果は、カテゴリー間の約 50-55% の正しい関係であり、それらは最高の関係であり、全体的には約 30-35% であり、悲惨なほど低い.
他のアプローチもいくつか試しましたが、40% をはるかに超える関連リンクを取得できませんでした (関連性のない関係の例としては、カテゴリ「トラック」がカテゴリ「メイクアップ」に強く関連していることが挙げられます)。 」または「シボレー」に弱い(またはまったく関連しない)カテゴリ「おむつ」)。
今、私はこれを行うためのより良い方法を探してみましたが、何も見つからないようです (それでも、他の人が私よりもうまくやっていることがわかっています)。誰もこれについて経験がありますか?カテゴリ間の関係を作成するための使用可能な方法に関するヒントはありますか? 今のところ、私が試した方法では、十分なリレーションが得られないか、ジャンク リレーションの割合が高すぎます。
php - 特定のテキストを異なるカテゴリに自動的に割り当てる方法は?
私は、次のようないくつかのカテゴリがあるこのプロジェクトに取り組んでいます
ビューティー アクティビティ ショッピング
カテゴリはタグ付けされます。たとえば、タグの一部は次のとおりです。
タグには順序があり、カテゴリとの関連性を示します。たとえば、ヘアカットという単語が含まれるテキストは美容関連である可能性が最も高いため、ヘアカットは美容で最初に来ます。
ご覧のとおり、「パーソナル トレーナー」タグは複数のカテゴリに属しているため、テキストにパーソナル トレーナーが含まれている場合は、美容またはアクティビティに関連している可能性があります。
また、各タグがテキスト内で何回見つかったかを記録するので、各タグには見つかった値が含まれています。
新しいテキストを処理するときは、その中のすべてのタグを検索し、それらが指定されたテキストに何回出現するかを確認します。サンプル テキストの結果は次のようになります。
これを見ると、テキストが Beauty に属していることがわかります。
ここに私の質問があります: 1- 指定された入力と、カテゴリが関連付けられているタグの配列を取得することによって、このテキストが属するカテゴリをプログラムでどのように決定しますか? これは良い考えですか?これを行うよりエレガントな方法はありますか?
2-これはこれを行う良い方法ですか、それともより良いアルゴリズムがありますか? これに対処するときに、lucene のようなものか、よりインテリジェントなアルゴリズムが機能するのではないかと考えていました。
php - ページとしてのMagentoカテゴリ/サブカテゴリ
カテゴリとそのサブカテゴリを使用してカスタム ページを表示しようとしています。これを行うために、私は次のことを試しました:
ここで、コード ベースに移動し、次のことを行います。
そして、host.com/category/subcategory に移動すると、404 が表示されます...何が欠けていますか? ティア。
view.phtml が実行されることを期待します。
nlp - Lingpipe のテキスト分類におけるデフォルトのカテゴリ
アプリケーションで Lingpipe のテキスト分類機能を使用しています。分類子は問題なく動作していますが、「デフォルト カテゴリ」をサポートしていないことに気付きました。つまり、テキストが指定されたカテゴリに適合しない場合、テキストが「中立」として分類される可能性はありません。これを行う方法はありますか?おそらく、スコアのしきい値を決定した場合。
私はどんな提案にも感謝します。ありがとうございました!
ruby-on-rails - has_many :through はデータベースに保存されません
カテゴリ化によるアイテムとカテゴリの関連付けがあります。
アイテム/新しい:
分類_コントローラー
アイテムコントローラー
問題は、保存(アイテムの作成)を押して、分類テーブルを確認し、コンソールで確認すると、保存されたアイテムにはまだcategory_idがありません。したがって、新しいアイテムとその属性 (名前、説明、価格) は適切に DB に保存されますが、カテゴリは保存されません。dbに保存されません。
何か案は?(Railsの初心者)ありがとう