0

基本的なシナリオは次のとおりです。たとえば、100,000 件の新聞のような記事のコーパスがあります。最低限、それらはすべて明確に定義されたタイトルと、ある程度の本文コンテンツを持ちます。

私がやりたいのは、他の記事にリンクすべき記事のテキストの続きを見つけることです。

したがって、記事 Foo に「8 年生の生徒は John-Paul Sartre の作品を読むよう奨励されています」のような一連のテキストがあり、記事 Bar に「John-Paul Sartre の重要な作品」というタイトル (およびそれについて) がある場合、I' Foo のテキスト内に Foo から Bar への HTML リンクを自動的に作成したいと考えています。

4

2 に答える 2

2

リンクを追加する前に、自問する必要があります。これを行うことで、ユーザーにどのような利益をもたらしたいですか? おそらく、サイトのナビゲーション性を高めたいと思うでしょう。古い記事へのリンクを、新しい記事を送信するために使用するフォームに追加する簡単な方法を作成する方がよいかもしれません。「選択したテキストのワンクリック検索」機能を追加することは可能かもしれません。ユーザーが選択したテキストへのリンクを提案できる wiki のような機能を追加できるかもしれません。記事の下に関連記事 (タグ付けシステムまたはテキスト マイニングによって生成されたもの) へのリンクを追加することをお勧めします。

完全に自動化されたリンク追加機能のいくつかの潜在的な問題: 正規表現 (または単純な部分文字列の一致) を使用した不適切な自動リンクを配置して、ユーザーを混乱させたり苛立たせたりすることを避けるために、優れた語義曖昧性解消アルゴリズムを実装する必要がある場合があります。

記事の数が多いため、リクエストごとに余分なリンクの html を生成したくない場合は、代わりにキャッシュしてください。

重複するタイトルや、他のタイトルを部分文字列として含むタイトルについては、決定を下す必要があります (最も長いタイトルを取得するか、最新の記事へのリンクを使用するか、同じカテゴリの記事を優先するかのいずれか)。

TLDR バージョン: ユーザーに必要な機能を提供する代替ソリューションを見つけます。

于 2009-01-12T20:27:39.577 に答える
1

探しているのは、テキスト マイニング ツールです。http://en.wikipedia.org/wiki/Text_miningで詳細情報とリンクを見つけることができます。http://lucene.apache.orgで Lucene とそのポートを確認することもできます。これらのツールを使用して、基本的な考え方は、問題の記事 (またはタイトル) に基づいて一連の類似記事を見つけることです。タイトルとコンテンツ、またはその両方を含む、記事のさまざまなプロパティを検索できます。デリシャス (または Stackoverflow) 風のタグ付けシステムも役立つかもしれません。記事間のリンクを事前に作成するのではなく、このページの右側にある関連する質問のインターフェイスによく似たインターフェイスに関連する記事を表示します。

各記事で特定のテキストを見つけてリンクしたい場合は、キーとなる適切なフレーズを選択するために前処理を行う必要があると思います。それでも、句読点やスペルミスのために見逃さないようにすることや、同じ理由で無関係なリンクを含めないようにすることは非常に難しいと思います.

于 2009-01-12T20:13:49.077 に答える