私は 80.000 の記事の大規模なコレクションを持っており、1 つのトピックに関する記事を抽出したいと考えています。トピックAについて手動で選択した記事のサンプルを入力できるpythonライブラリまたはスクリプトはありますか?使用されている単語とその頻度を比較することにより、トピックAに関する記事をアーカイブから抽出します。
Dunning メソッドについて読んだことがありますが、できれば Python を使用できる準備ができているスクリプトはありますか。
ありがとう
私は 80.000 の記事の大規模なコレクションを持っており、1 つのトピックに関する記事を抽出したいと考えています。トピックAについて手動で選択した記事のサンプルを入力できるpythonライブラリまたはスクリプトはありますか?使用されている単語とその頻度を比較することにより、トピックAに関する記事をアーカイブから抽出します。
Dunning メソッドについて読んだことがありますが、できれば Python を使用できる準備ができているスクリプトはありますか。
ありがとう
後世のためだけに、私の提案を形式化させてください。
0.) 箱から出してすぐに必要なすべてを実行できる、無料で入手できるものは、私が知っているものではありません。何かを支払うには、「google enterprise search」で検索してください。
1.)エラスティック サーチを使用して、JSON でドキュメントのインデックスを作成します。セットアップはとても簡単です。エラスティック検索には、問題を直接解決するわけではありませんが、独自の検索エンジンの構築を試しながら簡単なキーワード検索を実行できる多くの修復検索機能があります。
2.) 主題別に検索するには、学習ルーチンを作成する必要があります。あなたの問題を始めるのに実際にはかなり良い場所である非常に単純なものはここにあります. その例が出発点になります。