テキストファイルからトークンとしてテキストを抽出できるようにしたい-たとえば、次の文を含むテキストファイルがあるとします。
いいレストランです、
私を信じてください!
この内容を「トークン」として抽出したいと思います。たとえば、1つのトークンは「It's」、次のトークンは「」、その後のトークンは「a」、「」、「good」のようになります。 、次に「レストラン」、次に「、」、「\ n」、次に「信じる」、「」、「私」、「!」。つまり、トークンは単語であるか単語ではないかのどちらかであるということです。
これが私がこれまでに持っているものです(トークンが単語であるかどうかをプログラムの他の場所で確認します。このメソッドは次のトークンを返すだけです):
public Token next() {
if (c == -1) {
throw new NoSuchElementException();
}
Writer sw=new CharArrayWriter();
try {
while ( c != -1 && Character.isLetter(c) ) {
sw.write(c);
c = r.read();
}
while ( c != -1 && !Character.isLetter(c)) {
c = r.read();
}
} catch (IOException e) {
c = -1;
return null;
}
return null;
}
現在、ライターを使用してトークンとしてエクスポートする方法がわからないため、戻り値は「null」になっています。誰かがこれについて何かヒントがありますか?ありがとうございました!