1

自分自身にPythonを教える一環として、ユーザーが絞首刑執行人を演じることができるスクリプトを作成しました。現時点では、推測される絞首刑執行人の単語は、スクリプトのコードの先頭に手動で入力するだけです。

代わりに、スクリプトが英語の単語の大きなリストからランダムに選択するようにしたいです。これは私が行う方法を知っています-私の問題は、そもそも機能する単語のリストを見つけることです。

たとえば、テキストのブロックまたは私が使用できる類似のものとしてダウンロードできる1000の一般的な英語の単語のソースをネット上で知っている人はいますか?

(私の最初の考えは、プロジェクトgutenburgから小説のチャンクを取得することでした[このプロジェクトは私自身の娯楽のためだけであり、他の場所では利用できないため、著作権などは私にとってそれほど重要ではありません]、しかしそのようなものは可能性が高いです絞首刑執行人には適さない名前や非標準的な単語が多すぎるため。基本的に、スクラブルでの使用に合法的な単語のみを含むテキストが必要です。

ここでは少し奇妙な質問だと思いますが、実際には、答えは私だけでなく、単語の大量のシードリストを必要とするワードゲームなどのプロジェクトに取り組んでいる他の人にも役立つかもしれないと思いました。

リンクや提案に感謝します:)

4

3 に答える 3

1

これは役に立ちますか?

于 2010-04-11T21:36:03.080 に答える
0

/ usr / share / dict / wordsを試しましたか?

于 2010-04-11T17:52:10.953 に答える
0

テキストリストを手動で作成する

Project Gutenberg、Wikipedia、またはその他のソースからテキストを取得します。テキストに目を通し、各単語が見つかった回数を数えます。最も頻繁に見つかる単語は、代名詞、接続詞などです...それらを捨てるだけです。

もちろんテキストがストーリーでない限り、適切な名詞は最も頻繁に検出されない単語である可能性が高く、その場合、キャラクター名は非常に頻繁に検出される可能性があります。おそらく、適切な名詞を処理する最良の方法は、多くのソースを使用し、単語が見つかったソースの数を数えることです。基本的に、多くの異なるソースに共通する単語は、適切な名詞ではない可能性があります。1つのテキストソースに固有の単語は、破棄できます。このアイデアはtfidfに関連しています。

これらの単語の頻度を計算したら、単語を確認し、必要に応じてリストを微調整することも簡単です。

Wordnetを使用する

もう1つのアイデアは、Wordnetから単語をダウンロードすることです。Wordnetは、多くの単語の品詞を伝えます。目的のために名詞や動詞に固執することもできます。

于 2010-04-11T21:29:27.587 に答える