3

インスピレーションが必要です。趣味のプロジェクトで、コンテンツ分析で遊んでいます。基本的に、入力を分析してトピックマップに一致させようとしています。

例えば:

  • 「イラクの道」 > 歴史、中東
  • 「ハルムニ」 > 食べ物, 中東
  • "BMW" > ドイツ、車
  • "オバマ" > アメリカ
  • "Impala" > アメリカ、車
  • 「ベルリンの壁」 > 歴史、ドイツ
  • "ブラートヴルスト" > 食べ物, ドイツ
  • "チーズバーガー" > 食べ物, アメリカ
  • ...

私は分類学について多くのことを読んできましたが、最終的に読んだものはすべて、すべての人が異なる方法でタグ付けを行っているため、システムは失敗するにちがいないと結論付けています。

トークン化された入力とストップ ワード リストについて考えましたが、それらを考え出して構築するのはもちろん大変な作業です。単語とトピックの間に関連性のあるリンクを構築することは、疲れ果てているように思えます。また、扱う言語が何であれ、それは非常に豊かであり、ほとんどの言語は文脈に大きく依存しています。メンテどころか。

何かスマートなものを考え出し、それを推測できるようにしたいトピックでトレーニングする必要があると思います。Eliza botのようなものです。

とにかく、すぐに使えるものがあるとは思いませんが、意味を抽出するために入力を分析するためにテクノロジーを使用するためのリードや例はありますか?

4

3 に答える 3

2

SemanticHackerは、すぐに使用できる、必要な処理を正確に実行し、使いやすいAPIを備えています。短いフレーズでは多少不正確ですが、長いテキストには最適です。

  • 「イラクへの道」>社会/問題/戦争と紛争/特定の紛争
  • 「Halloumni」>該当なし
  • 「BMW」>レクリエーション/オートバイ/メーカーとモデル
  • 「オバマ」>社会/政治/保守主義
  • 「インパラ」>レクリエーション/自動車/メーカーとモデル/シボレー
  • 「ベルリンの壁」>地域/ヨーロッパ/ドイツ/州
  • 「ブラートヴルスト」>家庭/料理/肉
  • 「チーズバーガー」>ホーム/料理/レシピコレクション; 地域/北アメリカ/アメリカ合衆国/メリーランド/地方
于 2009-05-29T20:41:10.530 に答える
2

ひや。テキストまたは入力内のエンティティを見つけるために、まず OpenCalaisを調べます。それは素晴らしいです、そして私はそれを自分自身でたくさん使ってきました(ロイターの人たちから)。

その後、テキストをさらに分析して、エンティティと単語の間の関連付けを作成できます。おそらくWordNetのようなものでそれらを調べて、それらを類型化しようとするか、マップしようとしているドメインに一致するオントロジーを自動生成することさえあるでしょう.

すべてをまとめる方法については、できることがたくさんあります。上記、または単語とは何か、意味を理解しようとする 2 回または 3 回のパス モデル。または、入力を制御する場合は、解析しやすい形式を作成するか、NLP のあいまいな道をたどります(これは非常に楽しいことです)。

または、任意の RDF スニペットを解析するためにJenaのようなものを探すこともできますが、私自身は RDF 前提が好きではありません (私はトピック マッパーです)。WikiPedia で単語やフレーズ、名前を調べて、WikiPedia のページにあるセマンティクスに基づいてヒット率を評価するものを書きました (リクエストがあれば、詳細を詳しく説明できますが、作業するほうが楽しいのではないでしょうか)。自分自身を出して、私のものよりも優れたものを思いつきますか? :)、つまり。リンクの数、SeeAlso の数、テキストの量、ディスカッション ページの大きさなど。

私は何年にもわたってたくさんのことを書いてきました (PHP と Perl でさえも。CPAN の Robert Barta のトピック マップの記事、特にいくつかのキック アスの TM モジュールを参照してください)、エンジンからパーサー、途中の奇妙なものまで。単語やフレーズを分割し、累積ヒストグラムを作成してそれらのコンポーネントを分類する連想配列など。それはすべて楽しいものですが、シュリンクラップされたツールに関しては、よくわかりません. みんなの目標とニーズは異なるようです。それは、どれだけ複雑で洗練されたいかによって異なります。

とにかく、これが少し役立つことを願っています。乾杯!:)

于 2009-05-28T23:50:52.270 に答える
0

ベイジアン ネットワークの実装を探しているようですね。Solrなどを使用して取得できます。

CI-Bayesもチェックしてください。Joseph Ottinger は、今年初めに theserverside.net でこれに関する記事を書きました。

于 2009-05-28T23:05:35.700 に答える