機械学習形式用に変更する必要がある 1 行あたりのツイートを含むテキスト ファイルがあります。Python と基本的な UNIX テキスト操作 (正規表現) を使用して、多くの文字列操作を行っています。また、sed、grep、pythons .re 関数のコツをつかんでいます....しかし、この次の問題は私にとってマインドブロワーであり、誰でもこれで私を助けることができます。私はいくつかのグーグル検索を試みましたが、運がありません:(
私は常に疑似コードから始めて簡単にしますが、これが私が望むものです... " -token1- または -token2- または -token3- または -token4- を整数「1」に置き換え、他のすべての単語/トークンを置き換えます整数「0」で」
「1」になる必要がある単語/トークンのリストは次のとおりです。
- :)
- いいね
- ハッピー
- 楽しい
私のつぶやきは次のようになります。
- 今日は楽しい一日でした:)
- 私はパイソンがかっこいいと思います!それは私を幸せにします
新しいプログラム/関数の出力は次のようになります。
- 0 0 0 0 1 0 1
- 0 0 0 1 0 0 0 1
注 1: 「クール」に「!」が含まれていることに注意してください。その後ろに、それも含める必要がありますが、簡単にするために、最初にファイル内のすべての句読点をいつでも削除できます
注2:すべてのツイートは小文字になります。すべての行を小文字に変更する関数が既にあります
UNIX正規表現(sed、grep、awkなど)を使用してこれを行う方法、またはPythonで行う方法を知っている人はいますか? ところで、これは宿題ではありません。感情分析プログラムに取り組んでおり、少し実験しています。
ありがとう!:)