5

私は学習演習として Python で RSS リーダーを作成しています。検索用のキーワードで個々のエントリにタグを付けたいと思っています。残念ながら、実際のフィードのほとんどにはキーワード メタデータが含まれていません。現在、テスト データベースには約 600 のフィードから約 60,000 のエントリがあるため、手動でのタグ付けは効果的ではありません。これまでのところ、私は2つの解決策しか見つけることができませんでした:

1: Natural Language Toolkitを使用してキーワードを抽出します。

  • 長所: 柔軟。外部サービスへの依存はありません。
  • 短所: 記事ではなく、記事の概要のみをインデックス化できます。自明ではない: 高品質のキーワード抽出ツールを作成すること自体がプロジェクトです。

2: Google Adwords APIを使用して、記事の URL からキーワード候補を取得します。

  • 長所: 超高品質のキーワード。記事のテキスト全体に基づく; 使いやすい;
  • 短所: 無料ではない(?); クエリのレート制限は不明です。アカウントが禁止され、商用サイトでアドワーズ広告キャンペーンを実行できなくなるのではないかと心配しています。

誰でも提案できますか?アドワーズ アカウントが禁止されることへの懸念は根拠のないものですか?

4

2 に答える 2

2

特定のニーズに応じて、検討できる無料および商用のテキスト注釈ツール/サービスがいくつかあります。以下にリストされています。

OpenCalais より優れたツールはありますか? .

これらの多くはエンティティを提供し、キーワードの関連性を提供するものもあれば、トピック タグを提供するものもあります。

于 2011-01-17T20:24:38.970 に答える
1

美味しいおすすめタグ APIが使えます。

Python 経由で API を使用する方法の例http://www.michael-noll.com/projects/delicious-python-api/

他の選択肢はOpen Calaisです

于 2011-01-17T06:14:52.163 に答える