ユーザーが検索ボックスに入力する単語に基づいて、ユーザーのパーソナリティの特徴を判断したいと考えています。次に例を示します。
検索ワード:「パソコン」
検出されたパーソナリティ/記述子: 分析的、論理的、体系的、系統的
私は、このタスクが非常に重要であることを理解しています。以前に WordNet を使用したことがありますが、名詞ノードごとに形容詞クラウドが含まれているかどうかはわかりません。品詞のタグ付けはそれ自体が獣であるため、独自のコーパスを構築し、キーワードと共存する形容詞の用語頻度を検索することが最善のアイデアであるかどうかはわかりませんが、以下で説明します.
私は現在、ウィキペディアのダンプを使用して、ストップ ワード (and、or、of、to、a など) を削除した後、用語の頻度について各記事を処理しています。私の考えでは、コーパス全体で形容詞 (POS タグ付けに WordNet を使用) と名詞の共存 (たとえば、形容詞論理はしばしば名詞コンピューターと共起する) を検索し、相対的な語幹形容詞頻度に基づいて検索することでした。 、名詞と意味的に関連しているかどうかを判断します。潜在的な用途は計り知れません。
もう 1 つのアイデアは、名詞をステム化し、そのステムで始まる形容詞を検索してから、その形容詞の同義語を検索することです。例:
検索ワード:「パソコン」
語幹 : " comput- "
語幹のある形容詞: 計算
同義語: ???
問題は、名詞の形容詞形が常に形容詞形を持っているとは限らず、一部の名詞語幹がひどく間違った形容詞に一致することです。*悪い*例:
検索語: "running" (技術的には動名詞ですが、それでも名詞です)
語幹 : " run- "
語幹のある形容詞: 鼻水
同義語: NOT THE WORDS I WANT. 「アスレチック」、「やる気」、「規律」などの言葉を見つけたい
これは以前に行われたことですか?これにどのようにアプローチするかについて提案はありますか? まるで、ドキュメント内の「重要な」単語の形容詞の雲を生成しようとしているかのようです。
編集:この問題には「正しい」答えがないことを認識しています。最高の理論的可能性を備えた方法を提示した人には誰でも賞金を授与します.