java - 注釈からテキストドキュメント、Python または Java へのバイトスパンを一致させる

Question

注釈とドキュメントが別のファイルに保存されている MPQA オピニオンコーパスを使用しています。注釈ファイルには、ドキュメントへの文字オフセット (バイトスパン) が含まれています (
例: 850,861 )。

string  GATE_direct-subjective   
expression-intensity="medium"
attitude-link="a4"
nested-source="w, patient" 
intensity="medium" 
polarity="negative"

これらのバイトスパンをテキストドキュメントに一致させるにはどうすればよいですか? どんなアイデアにも感謝します！私は Python を使用することを好みますが、Java でのソリューションも問題ありません。

score 0 · Accepted Answer

質問を正しく理解しているかどうかは100％確信が持てませんが、部分文字列が必要で文字位置がある場合、解決策は簡単です。

Python ソリューション:

>>> sometext = "Grant D is a great guy."
>>> character_offset = [0, 7]
>>> subString = sometext[character_offset[0]:character_offset[1]]
>>> print subString
Grant D
>>>

java - 注釈からテキスト ドキュメント、Python または Java へのバイト スパンを一致させる

1 に答える 1

Related

Reference

java - 注釈からテキストドキュメント、Python または Java へのバイトスパンを一致させる