次の状況で自動割り当てを行うことができるアルゴリズムを知っているかどうか疑問に思っていました.いくつかのキーワードが定義された論文と、いくつかの特定のキーワードが定義された査読者がいます. レビュアーが関心のある分野から論文をレビューできるように、自動マッピングを行うにはどうすればよいですか?
質問する
91 次
3 に答える
0
Apache Luceneは 1 つのソリューションになる可能性があります。
これにより、RAM ディレクトリまたはファイル システムの実際のディレクトリ内でドキュメントのインデックスを作成し、全文検索を実行できます。
フィルターやアナライザーなどの非常に興味深い機能を多数提案しています。たとえば、次のことができます。
- ドキュメントの言語に応じてストップ ワードを削除します (たとえば、英語の場合: a、the、of など)。
- トークンをステム化します (たとえば、機能、機能、機能などは単一のインスタンスと見なされます)。
- 複雑なクエリを実行する (例: レビュー*、キーワード、「あるべきかどうか」など)。
- などなど…
あなたは見てみるべきです!選択した方法が Lucene である場合は、遠慮なくコード サンプルを尋ねてください。:)
于 2012-06-12T11:34:07.180 に答える
0
基本的には、独自のパーサーを設計するか、必要に応じて既存のパーサーを特化する必要があります。書類をスキャンし、キーワードに従ってトークンを検索して一致させる必要があります。次に、これらのキーワードを含む文を分離してレビュアーに表示します。
Stanford NLP POS taggerをお勧めします。必要なすべてのキーワードは、品詞に分類されます。次に、ドキュメント全体にタグを付けて、それらのタグを検索し、それに応じて文を並べ替えることができます。
于 2012-06-12T11:28:24.390 に答える
0
外部ツールの使用にオープンな場合、 Luceneは、(Web サイトから) に基づいてテキストを検索できるライブラリです。
- フレーズ クエリ、ワイルドカード クエリ、近接クエリ、範囲クエリなど
- フィールド検索 (例: タイトル、著者、内容)
- 日付範囲検索
- 任意のフィールドによるソート
- 結果をマージした複数インデックス検索
- 同時更新と検索が可能
于 2012-06-12T11:32:12.933 に答える