5

ユーザーが検索ボックスに入力する単語に基づいて、ユーザーのパーソナリティの特徴を判断したいと考えています。次に例を示します。

検索ワード:「パソコン」

検出されたパーソナリティ/記述子: 分析的、論理的、体系的、系統的


私は、このタスクが非常に重要であることを理解しています。以前に WordNet を使用したことがありますが、名詞ノードごとに形容詞クラウドが含まれているかどうかはわかりません。品詞のタグ付けはそれ自体が獣であるため、独自のコーパスを構築し、キーワードと共存する形容詞の用語頻度を検索することが最善のアイデアであるかどうかはわかりませんが、以下で説明します.

私は現在、ウィキペディアのダンプを使用して、ストップ ワード (and、or、of、to、a など) を削除した後、用語の頻度について各記事を処理しています。私の考えでは、コーパス全体で形容詞 (POS タグ付けに WordNet を使用) と名詞の共存 (たとえば、形容詞論理はしばしば名詞コンピューターと共起する) を検索し、相対的な語幹形容詞頻度に基づいて検索することでした。 、名詞と意味的に関連しているかどうかを判断します。潜在的な用途は計り知れません。


もう 1 つのアイデアは、名詞をステム化し、そのステムで始まる形容詞を検索してから、その形容詞の同義語を検索することです。例:

検索ワード:「パソコン」

語幹 : " comput- "

語幹のある形容詞: 計算

同義語: ???


問題は、名詞の形容詞形が常に形容詞形を持っているとは限らず、一部の名詞語幹がひどく間違った形容詞に一致することです。*悪い*例:

検索語: "running" (技術的には動名詞ですが、それでも名詞です)

語幹 : " run- "

語幹のある形容詞: 鼻水

同義語: NOT THE WORDS I WANT. 「アスレチック」、「やる​​気」、「規律」などの言葉を見つけたい


これは以前に行われたことですか?これにどのようにアプローチするかについて提案はありますか? まるで、ドキュメント内の「重要な」単語の形容詞の雲を生成しようとしているかのようです。

編集:この問題には「正しい」答えがないことを認識しています。最高の理論的可能性を備えた方法を提示した人には誰でも賞金を授与します.

4

2 に答える 2

1

WordNet には必要なものがありません。同義語ではない、または階層的にリンクされていない (chair->furniture) などの単語間の関係に関する情報は (ほとんど) 含まれていません。

OpenNLP (http://opennlp.apache.org) を使用して、大量のテキストを解析するだけです。OpenNLP パーサーは、文中の動詞-形容詞/名詞-形容詞を検出し、関係データベースを構築できるようにします。この時点で残っているのは、定義済みの形容詞のリストに対してデータベースをフィルター処理することだけです。

于 2012-07-19T21:58:49.517 に答える
1

これを行うための大量の計算リソースがあると仮定すると、Hyperspace Analog of Language (HAL) のような単純なものを使用して、ウィキペディアのダンプ用の Term X Term マトリックスを作成することをお勧めします。次に、アルゴリズムは次のようになります。

  • クエリの単語/用語を指定して、その (HAL) ベクトルを見つけます。
  • ベクトルについて、最大の重みを持つ形容詞コンポーネントを見つけます。
    • これを効率的に行うには、辞書 (WordNet など) を使用して用語のリスト (つまり、HAL によって抽出されたもの) を前処理し、(クエリを処理する前に) どの用語を形容詞として使用できるかを知る必要があります。
  • 形容詞ごとに、HAL 空間で最も類似した N 個のベクトルを見つけます。
    • オプション: 検索用語に共通する単語を探すことで、このリストを絞り込むことができます。

このアプローチは基本的に、コードとデータ構造の単純化のためにメモリと計算効率をトレードオフします。それでも、私があなたが望むと思うものにはかなりうまくいくはずです. 最初のステップでは、クエリ用語に最も一般的に関連付けられている形容詞が得られますが、HAL 空間でのベクトルの類似性 (ステップ 3) では、パラダイム的に関連する単語が得られます (大まかに言えば、互いに置き換えることができるため、最初から特定の種類の形容詞を使用すると、クエリ用語との関係に関して「好きな」形容詞がさらに得られるはずです)。これは、探している「クラウド」のかなり良いプロキシになるはずです.

于 2012-07-23T05:42:03.670 に答える