私はMLが初めてです。良い差分と悪い差分を示す注釈付きの差分レポートがあります。例 -
古い文字列 新しい文字列 差分注釈
abc abc 良い
pqr xyz 悪い
いいですね
....
このトレーニング セットが与えられた場合、分類器を使用して、類似したコンテンツがあると仮定して、将来の差分レポートの注釈を予測できますか。もしそうなら、どの分類子がこのタスクに最も適していますか?
私はMLが初めてです。良い差分と悪い差分を示す注釈付きの差分レポートがあります。例 -
古い文字列 新しい文字列 差分注釈
abc abc 良い
pqr xyz 悪い
いいですね
....
このトレーニング セットが与えられた場合、分類器を使用して、類似したコンテンツがあると仮定して、将来の差分レポートの注釈を予測できますか。もしそうなら、どの分類子がこのタスクに最も適していますか?
どれが「最良の分類子」かは、実際に試してパラメータを微調整しない限りわかりません。あなたがこの分野の初心者であれば、 Wekaがあなたを始めることができます。
分類子は、何でも取り入れて意味を理解できる魔法の杖ではありません。データを「特徴」または「信号」に分解する必要があります。これにより、分類子は、将来データに自動的にラベルを付けるために使用できるパターンを検出できます。提供されたトレーニング セットの例 (3 つの短い行で構成されています) を考えると、分類器がその仕事を行うために活用できるデータにどのような繰り返しの共通点が存在するかを推測することは誰にも不可能です。
コンピューターが調査し、インテリジェントな推測を行うために使用できる潜在的な信号をいくつか考えることができれば、線が取得できる注釈を自動的に特定できる可能性があります。分類器の最適な選択は、選択する信号の種類に大きく依存します。各文字列に繰り返し単語がある場合は、単純ベイズでうまくいくかもしれません。思いついた信号が数値のベクトルを形成している場合は、ロジスティック回帰または svm で遊ぶのが良いでしょう。