私は約5000個のユニークな単語/トークンのリストを持っています.各単語(スマイリーは単語としてカウントされます)は1行ごとです. SVM for Pythonで機能するものを作成しようとしています。
例のリストに数単語しかないことを想像してください
happy
sad
is
:(
i
the
day
am
today
:)
私の文字列は次のとおりです。
tweets =['i am happy today :)','is today the sad day :(']
次に、ツイートごとの出力は次のとおりです。
5:1 8:1 1:1 9:1 10:1
3:1 9:1 6:1 2:1 4:1
この形式 : に注意してください。これは、コロンの前の最初の数字が、 list 内の行番号/位置を使用して単語を参照する必要があることを意味します。たとえば、':)' はリストの 10 番目の単語です (テキスト ファイル、1 行に 1 トークン)。
テキストファイルを読み取り、各行(各単語/トークン)をリストまたは辞書の1か所に配置する関数を作成することを考えていました。これにより、各ツイートから単語を読み取り、それに基づいて数字に変換できますリスト内の位置。
Pythonでこれを行う方法について誰か考えがありますか? それから私は次のようなことを考えていました:
for i in tweets:
<translate-words-into-list-position>