3

多くの企業の PDF をクロールしてダウンロードし、年次報告書を選択しようとしています。このようなレポートは、ほとんどの企業の IR ページからダウンロードできます。

PDF がスキャンされ、データベースに次の情報が入力されます。

  • 題名
  • 目次(全文)
  • ページ数
  • 単語数
  • オリエンテーション
  • 最初の行

このデータを使用して、次のような明白なフレーズをチェックしています。

  • 年次報告
  • 財務諸表
  • 四半期報告
  • 中間報告

次に、これらのフレーズなどの頻度を記録します。これまでのところ、約 350,000 の PDF をスキャンする必要があり、4,000 のドキュメントのトレーニング セットが手動でレポートかどうかに分類されています。

ベイジアン分類器や利用可能なさまざまな要因の重み付けなど、さまざまなアプローチを試しています。Rubyで分類器を構築しています。私の質問は、この問題について考えているとしたら、どこから始めますか?

4

2 に答える 2

4

ベースラインを形成するために、最初に簡単で基本的なアプローチを試す必要があります。これで目的に十分な場合があります。そのようなアプローチの 1 つを次に示します。

すべての PDF をスキャンし、任意のドキュメントに出現するすべての単語の番号付きリストである語彙を形成します。

各単語の単語頻度をカウントすることにより、各ドキュメントのこの語彙から特徴ベクトルを作成します (すべての単語、それらを手動で選択する必要はありません)。文書 j の特徴 i は、単語 i が文書 j に出現する回数です。

次に、単語の重要度で特徴をべき乗します。これは、すべてのドキュメントでその単語が出現する頻度の反対です。(つまり、単語がすべてのドキュメントで頻繁に使用されるほど (たとえば、「the」)、含まれる情報が少なくなります。)

次に、k-means などの教師なしクラスタリング アルゴリズムを使用して、ドキュメントをクラスタリングします。k 個のクラスターの重心をランダムに配置して初期化し、最も近いドキュメントをそれらに割り当て、重心をそれらに割り当てられたドキュメントの平均に移動し、収束するまで最後の 2 つの手順を繰り返します。

次に、手でラベルを付けたいくつかの例を使用して、年次報告書を含むクラスターを見つけます。

クロス検証セットの精度が高くなるまで、クロス検証セットを使用してクラスターの数を調整します。

最後に、ホールドアウトされたテスト セットでテストします。これが低い場合は、戻ってきてください。

于 2012-06-24T18:16:11.377 に答える
1

数年前の論文でも同様のことをしましたが、デジタル化された講義スライドと試験問題を使用しました。検索エンジン、検索アルゴリズム、および検索の有効性を判断するための優れた概要について、私が出会った最も優れた本の 1 つは次のとおりです。

Search Engines: Information Retrieval in Practice、W. Bruce Croft、Donald Metzler、Trevor Strohman

出版社のウェブサイトには、本があなたに適しているかどうかを示すサンプルの章がいくつかあります: pearsonhighered.com

それが役立つことを願っています。

于 2012-06-24T18:17:39.460 に答える