ウィクショナリー ファイルを多くの言語 (英語、日本語など) で解析します。ここから ( PHP を使用して MySQL データベースへのウィクショナリー XML データ ダンプを解析する) その基本的な構造がわかります。しかし、私の質問は、これらの要素が何を表しているのですか?
たとえば、ページ要素の下のタイトルは語彙の単語だと思います。しかし、他の言語での翻訳はどこにありますか? その同義語はどこにありますか?
ウィクショナリー ファイルを多くの言語 (英語、日本語など) で解析します。ここから ( PHP を使用して MySQL データベースへのウィクショナリー XML データ ダンプを解析する) その基本的な構造がわかります。しかし、私の質問は、これらの要素が何を表しているのですか?
たとえば、ページ要素の下のタイトルは語彙の単語だと思います。しかし、他の言語での翻訳はどこにありますか? その同義語はどこにありますか?
「...他の言語への翻訳?同義語はどこにありますか?」
悪いニュースが 3 つあります。
このすべての情報 (翻訳、同義語) は、ウィクショナリーの記事のプレーン テキストです。
ウィクショナリーが異なれば、辞書記事の構造も異なります。たとえば、英語のウィクショナリーとロシア語のウィクショナリーの記事の構造を比較します。
ウィクショナリーの記事の構造は XML ファイルには表示されません。単純なプレーン テキストです。項目 1 を参照してください。したがって、類義語や翻訳を抽出するには、このテキストを解析する必要があります。
ウィクショナリー記事のテキストを機械可読データベースに変換 (解析) する方法に関する私の論文を読んでいただければ幸いです: http://arxiv.org/abs/1011.1368