多くの企業の PDF をクロールしてダウンロードし、年次報告書を選択しようとしています。このようなレポートは、ほとんどの企業の IR ページからダウンロードできます。
PDF がスキャンされ、データベースに次の情報が入力されます。
- 題名
- 目次(全文)
- ページ数
- 単語数
- オリエンテーション
- 最初の行
このデータを使用して、次のような明白なフレーズをチェックしています。
- 年次報告
- 財務諸表
- 四半期報告
- 中間報告
次に、これらのフレーズなどの頻度を記録します。これまでのところ、約 350,000 の PDF をスキャンする必要があり、4,000 のドキュメントのトレーニング セットが手動でレポートかどうかに分類されています。
ベイジアン分類器や利用可能なさまざまな要因の重み付けなど、さまざまなアプローチを試しています。Rubyで分類器を構築しています。私の質問は、この問題について考えているとしたら、どこから始めますか?