1

2 つ (または 1 つ) の有用な部分を持つデータのコレクションを解析しようとしていますが、さまざまな方法で編成されている可能性があります。

V01C01
Vol 1 Chapter 1
Chapter 1 Volume 1 - Alt title
V1.1
etc.

物事がどのように整理されるかのすべての組み合わせを予測する方法がないため、正規表現の膨大なコレクションを使用したくありません (また、無関係なテキストが含まれる場合もあります)。これに最適な機械学習のブランチがあるように感じますが、私はそれを知るのに十分な経験がありません.

4

1 に答える 1

2

確かにこれは興味深い問題であり、いくつか試してみることができます。

データにラベルがないことを前提として、最初に試みたのは、k-means などのクラスタリング アルゴリズムを使用して各インスタンス間の接続を確認することです ( http://en.wikipedia.org /wiki/K-means_clustering )、これで問題が解決するわけではありませんが、データを探索し、できれば教師あり学習分類子をトレーニングするための一連の機能を見つけるのに役立つことに注意してください。

データにラベルがある場合、またはセットに手動でタグを付けることができます。次に、より管理しやすい問題に直面します。一見すると、これはテキストまたはドキュメントの分類問題 (電子メールをスパム/スパムなしに分類するなど) によく似ているように見えますが、実装が簡単なアルゴリズムであるため、単純なベイズ分類器が問題を攻撃する最初の試みとして適している可能性があります。合理的な良い結果を提供できます。

単純ベイズ分類器について ( https://www.bionicspirit.com/blog/2012/02/09/howto-build-naive-bayes-classifier.html )

ここでいくつかの仮定を立てましたが、それに基づいて間違っている可能性があります。いくつかの点を明確にしていただければ (データに手動でタグを付けることができる場合など)、さらにお手伝いできるかもしれません。

于 2013-03-11T14:25:06.487 に答える