PyLucene には、StopFilter
特定のストップワードに基づいてトークンをフィルター処理するというフィルターがあります。呼び出しの例は次のとおりです。
result = StopFilter(True, result, StopAnalyzer.ENGLISH_STOP_WORDS_SET)
一連のストップ ワードの引数を置き換えるのは簡単なように思えますが、実際には少し難しいです。
>>> StopAnalyzer.ENGLISH_STOP_WORDS_SET
<Set: [but, be, with, such, then, for, no, will, not, are, and, their, if, this, on, into, a, or, there, in, that, they, was, is, it, an, the, as, at, these, by, to, of]>
これは でありSet
、実装できません:
>>> Set()
NotImplementedError: ('instantiating java class', <type 'Set'>)
PythonSet
PyLucene に付属の a を使用することが他の場所で提案されましたが、これは a のインスタンスではなく、 aSet
では使用できないことが判明しましたStopFilter
。
StopFilter
どうすれば新しいストップワードのセットを与えることができますか?