-2

私は現在、ISTQB テストマネージャーのトレーニングを受けています。この目的のために、私は ANKI とその閉鎖削除を使用したいと思います。

フラッシュカードを自動的に、つまり Python スクリプトを介して生成したいと考えています。このスクリプトは、すべてのサブスタンティブをクローズ削除に置き換える必要があります。

私の質問は:

Pythonスクリプトを使用してテキスト内の実質を識別するにはどうすればよいですか?

残念ながら、シラバスはドイツ語で利用できません。ドイツ語には、名詞が大文字であるという大きな利点があります。

4

1 に答える 1

1

構文解析または POS タグ (POS = 動詞、名詞などの品詞) を調べます。

patternNLTKはそのためのパッケージを提供します。

パターンの例:

>>> from pattern.en import parse
>>> print parse('I eat pizza with a fork.')

I/PRP/B-NP/O eat/VBD/B-VP pizza/NN/B-NP/O with/IN/B-PP/B-PNP a/DT/B-NP/I-PNP
fork/NN/I-NP/I-PNP ././O/O

NLTK の例:

>>> text = nltk.word_tokenize("And now for something completely different")
>>> nltk.pos_tag(text)
[('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'),
('completely', 'RB'), ('different', 'JJ')]

名詞または名詞(通常はNで始まる POS タグを持っています) に関する情報を入手したら、それらを閉鎖削除することができます。POS タグ付けは完全ではないことに注意してください。パフォーマンスは、作業しているテキストがどの程度完成しているかによって異なります。(また、英語で作業していると仮定していますが、多くの言語の POS タガーがあります。)

于 2013-10-08T16:47:44.437 に答える