1

現在開いているウィキペディア ページとしてユーザーからの入力を受け取るユーザー アプリを作成しています。これをモジュールへの入力として受け取り、ウェブスクレイピングと自然言語処理を使用して、その特定の記事に関連するキーワードのリストを生成するコードを作成しました。

特定したキーワードに加えて、ユーザーが関心を持つ可能性のある一連の関連トピックを提供することで、アプリの機能を拡張したいと考えています。ウィキペディアが提供するトリックを行うAPIはありますか。ない場合は、誰でも調べるべきことを教えてもらえますか (コードを最初から作成する必要がある場合)。また、トピックマップを識別するようにマシンをトレーニングするアルゴリズムを特定するための指針をいただければ幸いです。私は論文を求めているのではなく、基本的なものの実用的な実装を求めています

要約すると、

  1. ウィキペディアで現在の記事に関連するトピックを見つける方法が必要です (カテゴリでも可能です)。
  2. また、通常は関連してクラ​​スター化されているトピックを識別するようにマシンをトレーニングするためのサンプル アルゴリズムも高く評価します。

ps。具体的に教えてください。私は多くの明らかな可能性を調査しました。ありがとうございます。

4

2 に答える 2

0

必要に応じて、カテゴリをスクレイピングできます。Python を使用している場合は、API から直接ウィキテキストを読み取り、mwlib を使用して記事を解析し、リンクを見つけることができます。

より興味深いが実装が難しいアプローチは、関連する用語のクラスターを作成し、記事から抽出された用語のリストを使用して、それらに最も近い用語を見つけることです。

于 2012-03-18T18:24:16.923 に答える