私は機械学習を始めようとしているので、ツイートのテキスト分類を試してみたかったのです。ツイートの小さなサンプルを収集しましたが、教師あり学習を実行するには、収集したツイートの一部に手作業でラベルを付ける必要があります。データをスケールアップするとき、これは骨の折れる作業です。
大量のツイートに手動でラベルを付けずに分類を実行する方法はありますか? それとも、このタスクには教師なし学習の方が適していますか?
私は機械学習を始めようとしているので、ツイートのテキスト分類を試してみたかったのです。ツイートの小さなサンプルを収集しましたが、教師あり学習を実行するには、収集したツイートの一部に手作業でラベルを付ける必要があります。データをスケールアップするとき、これは骨の折れる作業です。
大量のツイートに手動でラベルを付けずに分類を実行する方法はありますか? それとも、このタスクには教師なし学習の方が適していますか?
このような問題のために、半教師あり学習法が作成されました。最も単純なアプローチには、いくつかの観測に手動でラベルを付け、ラベル付けされたデータに対して教師あり学習アルゴリズムを実行して、他の観測にラベルを付ける分類器を選択することが含まれ、これが繰り返されます。
ツイートは短いテキストです。LibShortText などの短いテキスト分類用に調整された分類器を試す必要があります: https://www.csie.ntu.edu.tw/~cjlin/libshorttext/
この記事では、短いテキスト (タイトル) と全文分類の特定のプロパティについて説明します: https://www.csie.ntu.edu.tw/~cjlin/papers/title.pdf
分類には常にラベル付きデータが含まれます (アクティブ ラーニング技術はデータセットのラベル付けに役立ちます) が、Snorkel (データ プログラミング) などの新しい技術を利用して、いくつかの問題を軽減できます: https://github.com/HazyResearch/snorkel