0

私はnltkを始めたばかりで、本に従っています。第 6 章はテキストの分類に関するもので、何かについて少し混乱しています。例 (名前と映画のレビュー) では、分類器は 2 つの明確に定義されたラベル (男性-女性、および正負) から選択するようにトレーニングされています。しかし、ラベルが 1 つしかない場合のトレーニング方法。

映画のあらすじがたくさんあり、SF ジャンルの映画を探すことにしか興味がないとします。SF プロットのみを認識するように分類器をトレーニングできますか。たとえば、分類の信頼度が 80% を超える場合は fi を認識し、それを SF グループに入れます。それ以外の場合は無視します。

誰かが明確にできることを願っています、ありがとう、

4

2 に答える 2

0

2つの質問が表示されます

  1. システムをトレーニングするには?
  2. システムは「SF」と「その他」で構成できますか?

2の答えはイエスです。データ、機能、およびアルゴリズムで 80% が適切なしきい値であることがわかる限り、80% の信頼しきい値のアイデアを持つことも理にかなっています。(そうでない場合、すべての SF 映画が SF として分類されているわけではない場合は値を下げるか、非 SF 映画があまりにも多く SF として分類されている場合は値を下げることを検討してください。)

1 に対する答えは、所有しているデータ、抽出できる機能などによって異なります。Jared のアプローチは合理的に思えます。Jared のように、私も十分な代表的なデータの重要性を強調したいと思います。

于 2013-04-26T07:50:48.517 に答える
0

二項分類器を単純にトレーニングして、 SF非 SFを区別することができます。

そのため、 SFとしてラベル付けされた映画のプロットと、他のすべてのジャンルの選択についてトレーニングします。たとえば、すべてがロマンティック コメディのジャンルであるとは限らないように、他のジャンルについても同じサイズの代表的なサンプルを用意することをお勧めします。

于 2013-04-26T07:44:06.743 に答える