3

ウィクショナリー ファイルを多くの言語 (英語、日本語など) で解析します。ここから ( PHP を使用して MySQL データベースへのウィクショナリー XML データ ダンプを解析する) その基本的な構造がわかります。しかし、私の質問は、これらの要素が何を表しているのですか?

たとえば、ページ要素の下のタイトルは語彙の単語だと思います。しかし、他の言語での翻訳はどこにありますか? その同義語はどこにありますか?

4

1 に答える 1

3

「...他の言語への翻訳?同義語はどこにありますか?」

悪いニュースが 3 つあります。

  1. このすべての情報 (翻訳、同義語) は、ウィクショナリーの記事のプレーン テキストです。

  2. ウィクショナリーが異なれば、辞書記事の構造も異なります。たとえば、英語のウィクショナリーとロシア語のウィクショナリーの記事の構造を比較します。

  3. ウィクショナリーの記事の構造は XML ファイルには表示されません。単純なプレーン テキストです。項目 1 を参照してください。したがって、類義語や翻訳を抽出するには、このテキストを解析する必要があります。

ウィクショナリー記事のテキストを機械可読データベースに変換 (解析) する方法に関する私の論文を読んでいただければ幸いです: http://arxiv.org/abs/1011.1368

于 2015-09-12T13:28:43.623 に答える