machine-learning - ベイジアン分析を使用して複数のルールの重みを計算および結合し、書籍を識別する方法

Question

私は電子書籍のコレクションを特定するのに役立つツールを作成することで、機械学習全般、特にベイジアン分析を試しています。入力データは一連の電子書籍ファイルで構成され、その名前と場合によっては内容に、対応する書籍に関するヒントが含まれています。

次のような、人間の読者には明らかなものもあります。

人工知能 - 最新のアプローチ 3rd.pdf
マイクロソフトプレス - SharePoint Foundation 2010 Inside Out.pdf
PC 修理の完全ガイド第 5 版 [2011].pdf
ハムレット.txt

他のものはそれほど明白ではありません:

Vsphere5.prc (実際には Scott Lowe による「Mastering VSphere 5」)
as.ar.pdf (実際には、Ayn Rand による「肩をすくめるアトラス」)

さまざまな形式のファイル名に対応するさまざまなパーサーをコーディングしようとするのではなく、それぞれにスコアを付けた数十個の単純なルールを作成することにしました。

たとえば、ファイルの最初の数ページで ISBN 番号に似たものを探し、見つかった場合、ファイルがその ISBN 番号で識別される本に対応しているという仮説を提案するルールがあります。

別のルールでは、ファイル名が「作成者 - タイトル」形式であるかどうかを確認し、そうであれば、作成者が「作成者」でタイトルが「タイトル」であるという仮説を提案します。他のフォーマットについても同様のルール。

Amazon または ISBN データベースから本のタイトルと著者のリストを取得し、ファイル名とファイルの最初の数ページからこれらのいずれかを検索することもできると思いました。一致が見つかった場合、そのルールによって仮説が提案されます。

最終的に、次のような一連のタプルが得られます。

[ルール名,仮説]

ISBN 一致などの一部のルールは、利用可能になったときに正しい可能性が高いと予想されます。既知の本のタイトルと著者に基づく一致など、他のルールはより一般的ですが、それほど正確ではありません。

私の質問は次のとおりです。

これは、この問題を解決するための良いアプローチですか?
もしそうなら、ベイジアン分析は、これらすべてのルールの仮説を複合スコアに組み合わせて、どの仮説が最も強いか、または最も可能性が高いかを判断するのに役立ちますか?
この問題を解決するためのより良い方法はありますか、または詳細情報を得るために私が参照できる研究論文や本はありますか?

score 0 · Accepted Answer

コレクションのサイズと、分類子のトレーニングに費やす時間によって異なります。時間を節約できる一般化を行うのは困難です。どのタイプの分類器でも、大規模なトレーニングセットを作成する必要があり、高い精度を得るには多くのルールを見つける必要があります。ルールを作成し、それらを使用して選択するタイトルの代替案を提案するためだけに使用し、分類子を実装しない方がおそらく効率的です (誤検出が少なくなります)。しかし、目的が学習である場合は、先に進んでください。

machine-learning - ベイジアン分析を使用して複数のルールの重みを計算および結合し、書籍を識別する方法

1 に答える 1

Related

Reference