32

ウィクショナリーは、多くの言語をカバーするウィキ辞書です。翻訳まであります。私はそれを解析してデータをいじることに興味がありますが、これまでに誰かがこのようなことをしたことがありますか? 使用できるライブラリはありますか? (できればPython。)

4

11 に答える 11

23

私はかつて、スラブ語の単語と定義を集めようとして、ウィクショナリーのダンプをダウンロードしていました。elementtreeを使用して、ダンプであるxmlファイルを通過するようにアプローチしました。サイトをスクレイプしたりクロールしたりすることは避け、ウィキメディアがウィクショナリーに提供するxmlダンプをダウンロードするだけです。ウィキメディアのダウンロードに移動し、英語のウィクショナリーダンプ(enwiktionary)を探して、最新のダンプに移動します。おそらく、pages-articles.xml.bz2ファイルが必要になります。これは、記事のコンテンツのみであり、履歴やコメントはありません。Pythonで好みのxml処理ライブラリを使用してこれを解析します。私は個人的にelementtreeが好きです。幸運を。

于 2010-07-29T20:59:08.587 に答える
20

ウィクショナリーはAPI を持つMediaWiki で動作します。

API ドキュメントのサブページの 1 つはクライアント コードで、いくつかの Python ライブラリがリストされています

于 2010-07-29T15:40:21.573 に答える
15

wordnikは定義の解析などをうまく行っており、優れた APIを持っています。

他の人が言及したように、ウィクショナリーはフォーマット災害であり、コンピューターで読み取り可能に構築されていません

于 2012-03-16T09:51:06.153 に答える
10

はい、多くの人がウィクショナリーを解析しました。通常、過去の経験はWiktionary-l メーリング リスト アーカイブで見つけることができます。

他の回答で言及されていないプロジェクトは、DBPedia のウィクショナリー RDF 抽出です。

ウィクショナリーを解析した他の数十の研究プロジェクト: 最近のウィクショナリー スペシャルやウィキメディア研究ニュースレターの他の号でいくつかの例を見つけることができます。

最近、ウィクショナリー データの不特定のサブセットを含む英語のウィクショナリー REST APIも作成されました。事の将来の計画はまだ知られていません。

于 2016-02-13T19:17:13.363 に答える
9

ドイツ語のウィクショナリーを解析するのに苦労しました。難しすぎると書き留めてしまいましたが、あきらめる前に (まったく整理されていない) コードをhttps://github.com/benreynwar/wiktionary-parserに置きました。編集者が使用する慣習はありますが、同業者による監視以外には強制されません。ページ内のすべてのタイプミスとともに使用されるテンプレートの多様性により、解析が非常に困難になります。

問題は、ウィクショナリーと同じシステムを使用していることだと思います。これは、編集者にとって使いやすさには優れていますが、ウィクショナリーのより構造化されたコンテンツには適していません。ウィクショナリーが簡単に解析できれば、非常に有用なリソースになるので残念です。

于 2011-05-06T04:52:31.563 に答える
4

ドイツ語のダンプから次のような単語リストを作成しました。

bzcat pages-articles.xml.bz2 | grep '<title>[^[:space:][:punct:]]*</title>' | sed 's:.*<title>\(.*\)</title>.*:\1:' > words
于 2012-03-24T23:05:42.840 に答える
4

MySQL で解析されたウィクショナリー データベースで遊んでみてください。Java で書かれたパーサーによって作成された 2 つのデータベース (英語ウィクショナリーとロシア語ウィクショナリー) があります: http://wikokit.googlecode.com

PHP が好きなら、piwidictで遊んでみてください- この機械で読み取り可能な Wiktionary 2への PHP API

于 2014-03-13T13:20:26.997 に答える
3

python ではなく興味深いdbnaryプロジェクトに興味があるかもしれません。クレームは 21 の言語の解析をサポートし、wikdictを強化します。

于 2015-07-29T10:18:27.600 に答える
1

ウィクショナリーから構造化データを解析して抽出するのに適したJWKTLもあります。Java で書かれており、英語版、ドイツ語版、ロシア語版をサポートしています。

于 2014-11-28T21:12:10.623 に答える
0

それは、それをどの程度徹底的に解析する必要があるかによって異なります。ある言語の単語のすべての内容 (定義、語源、発音、活用など) だけを取得する必要がある場合は、非常に簡単です。Javaでjsoupを使用していましたが、以前にこれを行っていました

ただし、コンテンツのさまざまなコンポーネントに分解する必要がある場合 (たとえば、単語の定義を取得するだけの場合) は、はるかに困難になります。言語の単語のウィクショナリー エントリには、事前定義されたテンプレートがないため、ヘッダーは から<h3>までのいずれか<h6>である可能性があり、セクションの順序はごちゃごちゃになっている可能性があり、繰り返しになる可能性があります。

于 2015-06-17T00:22:09.403 に答える