テキストの文を抽出したいのですが、結果の正確な位置が必要です。NLTKの現在の実装ではtokenize.sent_tokenize
、抽出された文の位置が返されないため、次のようなことを試しました。
offset, length = 0, 0
for sentence in tokenize.sent_tokenize(text):
length = len(sentence)
yield sentence, offset, length
offset += length
sent_tokenize
ただし、結果の文の境界の外にある一部の書き込み文字 (改行、余分なスペースなど) が削除されるため、文の正確な位置は返されません。文を分割するために単純な正規表現パターンを使用したくありません。その場合、この問題は些細なことです。
ありがとう。