java - Java で Lucene を使用してトークン化、ストップワードを削除する

Question

Lucene を使用して、txt ファイルからストップワードをトークン化して削除しようとしています。私はこれを持っています：

public String removeStopWords(String string) throws IOException {

Set<String> stopWords = new HashSet<String>();
    stopWords.add("a");
    stopWords.add("an");
    stopWords.add("I");
    stopWords.add("the");

    TokenStream tokenStream = new StandardTokenizer(Version.LUCENE_43, new StringReader(string));
    tokenStream = new StopFilter(Version.LUCENE_43, tokenStream, stopWords);

    StringBuilder sb = new StringBuilder();

    CharTermAttribute token = tokenStream.getAttribute(CharTermAttribute.class);
    while (tokenStream.incrementToken()) {
        if (sb.length() > 0) {
            sb.append(" ");
        }
        sb.append(token.toString());
    System.out.println(sb);    
    }
    return sb.toString();
}}

私のメインは次のようになります。

    String file = "..../datatest.txt";

    TestFileReader fr = new TestFileReader();
    fr.imports(file);
    System.out.println(fr.content);

    String text = fr.content;

    Stopwords stopwords = new Stopwords();
    stopwords.removeStopWords(text);
    System.out.println(stopwords.removeStopWords(text));

これによりエラーが発生しますが、理由がわかりません。

score 10 · Accepted Answer

私は同じ問題を抱えていました。を使用してストップワードを削除するにLuceneは、メソッドを使用してデフォルトのストップセットを使用できますEnglishAnalyzer.getDefaultStopSet();。それ以外の場合は、独自のカスタムストップワードリストを作成できます。

以下のコードは、あなたの正しいバージョンを示していますremoveStopWords():

public static String removeStopWords(String textFile) throws Exception {
    CharArraySet stopWords = EnglishAnalyzer.getDefaultStopSet();
    TokenStream tokenStream = new StandardTokenizer(Version.LUCENE_48, new StringReader(textFile.trim()));

    tokenStream = new StopFilter(Version.LUCENE_48, tokenStream, stopWords);
    StringBuilder sb = new StringBuilder();
    CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
    tokenStream.reset();
    while (tokenStream.incrementToken()) {
        String term = charTermAttribute.toString();
        sb.append(term + " ");
    }
    return sb.toString();
}

ストップワードのカスタムリストを使用するには、次を使用します。

//CharArraySet stopWords = EnglishAnalyzer.getDefaultStopSet(); //this is Lucene set 
final List<String> stop_Words = Arrays.asList("fox", "the");
final CharArraySet stopSet = new CharArraySet(Version.LUCENE_48, stop_Words, true);

score 0 · Accepted Answer

tokenStream.incrementToken() を呼び出す前に、tokenStream.reset() を呼び出してみてください。

java - Java で Lucene を使用してトークン化、ストップ ワードを削除する

3 に答える 3

Related

Reference

java - Java で Lucene を使用してトークン化、ストップワードを削除する