1

wmtからニューステスト データセットを .sgm 形式からフォーマットされていない形式 (europarl データセットなど) に取得するために使用されるスクリプト (およびその方法) は?

例: http://www.statmt.org/wmt15/test.tgzでダウンロードされたニューステスト データセット

newstest2015-ende-ref.de.sgm などのファイルが含まれています (抽出された場合)。

各行がフォーマットなしの文を表す europarl データセットと同様にするにはどうすればよいですか?

ノート:

mosesディレクトリ (wmt サイトからリンク) にwrap-xml.perlというスクリプトを見つけました。テストセクションで、.sgm 形式に移動するために使用されると述べていますが、スクリプト自体にはドキュメントが含まれていません (私は perl について無知です)。

4

0 に答える 0