TextDirectoryLoaderを使用して、一連のテキストまたはWebページファイルをarffファイルに変換する方法を知っています。
単一のテキスト ファイルを Arff ファイルに変換する方法を知りたいです。
どんな助けでも大歓迎です。
TextDirectoryLoaderを使用して、一連のテキストまたはWebページファイルをarffファイルに変換する方法を知っています。
単一のテキスト ファイルを Arff ファイルに変換する方法を知りたいです。
どんな助けでも大歓迎です。
もっと具体的にお願いします。ともかく:
ファイル内のテキストが 1 つのドキュメント (つまり、1 つのインスタンス) に対応する場合、必要なのはすべての「改行」をエスケープ コードに置き換えて\n
、テキスト全体を 1 行にし、手動でフォーマットすることだけです。単一のテキスト属性と単一のインスタンスを持つ arff として。
テキストが複数のインスタンス (ドキュメントなど) に対応する場合は、スクリプトを作成して複数のファイルに分割し、適用することをお勧めします
TextDirectoryLoader
。特定のフォーマットがある場合 (インスタンスが XML タグで囲まれている場合など)、(XML フォーマットを利用して) 同じことを行うか、WEKA でカスタム ローダー クラスを記述してフォーマットを認識し、インスタンス オブジェクトを構築することができます。 .
例を投稿すると、より正確な提案が得やすくなります。