java - 文書集合内の共起単語間の意味的関連性

Question

ここに投稿する質問自体が正しいかどうかはよくわかりませんが、やってみようと思いました。

私は、公開知識ベースからテキストデータを取得し、このテキストを使用して、元のクエリに関連すると思われる追加の用語を含むタグベースの検索クエリを自動的に拡張するプロジェクトに取り組んでいます。公開知識ベースは、基本的にウィキペディアからのデータの集まりです。私の場合、374 万件の記事の要約です。

最初は、元のクエリに基づいて単純に検索を実行し、一致を説明する記事で使用されている単語をクエリから取得し、単純な用語頻度計算を行って、最も使用されている N 個の用語を取得しました。

最初は単純なアイデアのように見えましたが、クエリをさらにテストすると、問題が発生し始めました。カスタムテキストコレクションに対してある種のセマンティック分析が必要であることは明らかですが、このようなことをどこから始めればよいかさえわかりません。このような意味分析を行うことになっているオンラインで見つけたツールは、事前定義されたテキストのコレクションでのみ機能します。述べたように: カスタムコレクションを処理し、後でそのインデックスを使用して検索を実行できるものが必要です。

アイデアや提案はありますか？

java - 文書集合内の共起単語間の意味的関連性

0 に答える 0

Related

Reference