1

テキストを解析してそのテキストを出力し、関心のある単語のウィキペディアのエントリにハイパーリンクできるツールはありますか?

たとえば、次のようなツールが必要です。

ソートされたリストで最も一般的な検索アルゴリズムは、二分検索です。

の中へ:

ソートされた リストで最も一般的な検索アルゴリズムは、二分検索です。

ウィキペディアがこれを行う API を持っていれば素晴らしいと思います。「興味のある単語」が何であるかを判断するのに最も適しているからです。

私の例では、The と most を除いて、エントリに直接リンクするすべての組み合わせを単純にリンクしました。

4

3 に答える 3

1

あなたが求めていることを正確に行うツールがあります。http: //wikify.appointment.at/ 完璧ではありませんが、機能します。

于 2009-05-27T09:16:33.643 に答える
1

Microsoft Research の Silviu Cucerzan は、この問題に取り組みました。リンクを挿入するという問題ではなく、テキストの一部でどのエンティティが言及されているかを判断するという一般的な問題です。幸運なことに、彼はウィキペディアの記事を一連のエンティティとして使用しました。彼の論文「Large-Scale Named Entity Disambiguation Based on Wikipedia Data」は、彼のWeb サイトで入手できます。直接リンク: pdf .

于 2009-05-25T11:29:38.520 に答える
1

ここで解決する必要がある 2 つの別個の問題があります。

  1. リンクする単語の決定
  2. これらの単語をリンクする適切なエントリがあるかどうかを判断する

さて、(2) の方が簡単ですが、やや問題があります。ウィキペディアには、データを効率的に収集できるAPIがあるようで、「スクリーン スクレイピング」も可能です。しかし、明確化には問題があります - 時々、あなたが望んでいたエントリにヒットしないかもしれません。たとえば、pythonは曖昧さ回避ページにリンクしています。これは、プログラミング言語、スネーク、およびその他のいくつかのものである可能性があるためです。

(1) ただし、はるかに難しいです。「単純なアプローチ」を取り、自明ではないすべての名詞 (または名詞/形容詞のペア) のリンクを見つけようとすることができます。ここでの自明ではないということは、「悪魔、単語、コンピューター」などの単語を省略することを意味します。テキストの何が面白いかを決めるのは本当にあなた次第であり、これはテキスト自体に大きく依存します. プロのプログラマー向けの記事で、本当に毎回「検索アルゴリズム」にリンクするのですか?しかし、初心者にとっては、おそらくそうです。

結論として、このトリックを実行できる単一の汎用ツールがあるとは思えません。しかし、確かにすべてのオプションが手元にあり、特定のニーズに合わせて何かをコード化することは、あまり労力をかけずに行うことができます。

于 2009-03-14T06:32:13.787 に答える