9

ベクトル化するテキスト文字列がある場合、その中の数値をどのように処理すればよいですか? または、ニューラル ネットワークに数字と単語を入力する場合、どうすれば数字を数字として保持できますか?

私はすべての単語の辞書を作成することを計画しています (ここで提案されているように)。この場合、すべての文字列は数値の配列になります。数字である文字をどのように処理すればよいですか? 単語インデックスと数字文字を混在させないベクトルを出力する方法は?

数値を文字列に変換すると、ネットワークに供給する情報が弱まりますか?

4

3 に答える 3

2

あなたが提供するリンクは、 a から生じるすべてのもの.split(' ')にインデックスが付けられていることを示唆しています-単語だけでなく、数字、おそらくスマイリー、aso. (私はまだ句読点の世話をします)。データや問題について事前の知識がない限り、それから始めることができます。

編集

文字列とそのコードを文字通り使用した例:

corpus = {'my car number 3'}
dictionary = {}
i = 1
for tweet in corpus:
  for word in tweet.split(" "):
    if word not in dictionary: dictionary[word] = i
    i += 1
print(dictionary)
# {'my': 1, '3': 4, 'car': 2, 'number': 3}
于 2017-07-02T07:56:16.193 に答える