私は電子書籍のコレクションを特定するのに役立つツールを作成することで、機械学習全般、特にベイジアン分析を試しています。入力データは一連の電子書籍ファイルで構成され、その名前と場合によっては内容に、対応する書籍に関するヒントが含まれています。
次のような、人間の読者には明らかなものもあります。
- 人工知能 - 最新のアプローチ 3rd.pdf
- マイクロソフト プレス - SharePoint Foundation 2010 Inside Out.pdf
- PC 修理の完全ガイド 第 5 版 [2011].pdf
- ハムレット.txt
他のものはそれほど明白ではありません:
- Vsphere5.prc (実際には Scott Lowe による「Mastering VSphere 5」)
- as.ar.pdf (実際には、Ayn Rand による「肩をすくめるアトラス」)
さまざまな形式のファイル名に対応するさまざまなパーサーをコーディングしようとするのではなく、それぞれにスコアを付けた数十個の単純なルールを作成することにしました。
たとえば、ファイルの最初の数ページで ISBN 番号に似たものを探し、見つかった場合、ファイルがその ISBN 番号で識別される本に対応しているという仮説を提案するルールがあります。
別のルールでは、ファイル名が「作成者 - タイトル」形式であるかどうかを確認し、そうであれば、作成者が「作成者」でタイトルが「タイトル」であるという仮説を提案します。他のフォーマットについても同様のルール。
Amazon または ISBN データベースから本のタイトルと著者のリストを取得し、ファイル名とファイルの最初の数ページからこれらのいずれかを検索することもできると思いました。一致が見つかった場合、そのルールによって仮説が提案されます。
最終的に、次のような一連のタプルが得られます。
[ルール名,仮説]
ISBN 一致などの一部のルールは、利用可能になったときに正しい可能性が高いと予想されます。既知の本のタイトルと著者に基づく一致など、他のルールはより一般的ですが、それほど正確ではありません。
私の質問は次のとおりです。
- これは、この問題を解決するための良いアプローチですか?
- もしそうなら、ベイジアン分析は、これらすべてのルールの仮説を複合スコアに組み合わせて、どの仮説が最も強いか、または最も可能性が高いかを判断するのに役立ちますか?
- この問題を解決するためのより良い方法はありますか、または詳細情報を得るために私が参照できる研究論文や本はありますか?