これは、あなたが与えたようなスニペットから単語を抽出するのにかなりうまくいくと思う、私が書いた簡単なコードです...完全には考えられていませんが、できなければこれらの行に沿った何かがうまくいくと思います事前にパッケージ化されたタイプのソリューションを見つける
textstring = "likewesaid, we'lldowhatwecan. Trytoreconnectyou, towhatyouwant," said the Sheep Man. "Butwecan'tdoit-alone. Yougottaworktoo."
indiv_characters = list(textstring) #splits string into individual characters
teststring = ''
sequential_indiv_word_list = []
for cur_char in indiv_characters:
teststring = teststring + cur_char
# do some action here to test the testsring against an English dictionary where you can API into it to get True / False if it exists as an entry
if in_english_dict == True:
sequential_indiv_word_list.append(teststring)
teststring = ''
#at the end just assemble a sentence from the pieces of sequential_indiv_word_list by putting a space between each word
一致が返されない場合など、解決すべき問題がいくつかあります。これは、文字を追加し続けると一致しないため、明らかに機能しませんが、デモ文字列にはいくつかのスペースが含まれているため、それを使用できますこれらも認識し、これらのそれぞれから自動的にやり直します。
また、句読点を考慮する必要があり、次のような条件を記述します
if cur_char == ',' or cur_char =='.':
#do action to start new "word" automatically