0

一連の Web ページが与えられ、ページ レコメンダーを作成する必要があります。アプリケーションに指定された URL に関係なく、アプリケーションは指定されたプールから URL のページに類似したページを見つけることができる必要があります。


それを行うためのさまざまなアプローチを探してみました。word2vec の使用に興味がありました。指定されたすべての Web ページ セットをクロールし、そのページのコンテンツに基づいてそのページのタグを生成することを計画しています。これらのタグから、word2vec を使用してページのベクトル値を計算し、保存することを望んでいました。検索するとき、同様の値を探すために、同様の方法で特定のページのベクトルを計算します。これは word2vec を使用する正しい方法ですか? どのトレーニング ベクトルを使用する必要がありますか? このタスクを実行するための他のより良い方法はありますか?または、プレーンテキストの一致がより良いオプションでしょうか?

4

1 に答える 1

0

既存の IR オープン ソースを使用してドキュメントを処理することをお勧めします。つまり、クロールされた Web ページのインデックスを作成し、クエリを実行して結果を取得します。エラスティックインデックスのすべての Web ページを使用してドキュメントのインデックスを作成し、エラスティック ドキュメントから、このクエリのようなものを使用してクエリを実行できます。

More Like This クエリ (MLT クエリ) は、特定のドキュメント セットに「似ている」ドキュメントを検索します。

于 2015-05-07T07:29:21.013 に答える