注釈とドキュメントが別のファイルに保存されている MPQA オピニオン コーパスを使用しています。注釈ファイルには、ドキュメントへの文字オフセット (バイト スパン) が含まれています (
例: 850,861 )。
string GATE_direct-subjective
expression-intensity="medium"
attitude-link="a4"
nested-source="w, patient"
intensity="medium"
polarity="negative"
これらのバイト スパンをテキスト ドキュメントに一致させるにはどうすればよいですか? どんなアイデアにも感謝します!私は Python を使用することを好みますが、Java でのソリューションも問題ありません。