私は学習演習として Python で RSS リーダーを作成しています。検索用のキーワードで個々のエントリにタグを付けたいと思っています。残念ながら、実際のフィードのほとんどにはキーワード メタデータが含まれていません。現在、テスト データベースには約 600 のフィードから約 60,000 のエントリがあるため、手動でのタグ付けは効果的ではありません。これまでのところ、私は2つの解決策しか見つけることができませんでした:
1: Natural Language Toolkitを使用してキーワードを抽出します。
- 長所: 柔軟。外部サービスへの依存はありません。
- 短所: 記事ではなく、記事の概要のみをインデックス化できます。自明ではない: 高品質のキーワード抽出ツールを作成すること自体がプロジェクトです。
2: Google Adwords APIを使用して、記事の URL からキーワード候補を取得します。
- 長所: 超高品質のキーワード。記事のテキスト全体に基づく; 使いやすい;
- 短所: 無料ではない(?); クエリのレート制限は不明です。アカウントが禁止され、商用サイトでアドワーズ広告キャンペーンを実行できなくなるのではないかと心配しています。
誰でも提案できますか?アドワーズ アカウントが禁止されることへの懸念は根拠のないものですか?