私は自分が世界で最も賢い人ではないことを認めますが、これについては途方に暮れています.
英語のウィクショナリー プロジェクトの単語と各単語の詳細にアクセスしたいと考えています。彼らがデータをダンプしているのを見て、興奮しました。それは3秒間続きました。それ以来、私がやったのは、欲求不満と苛立ちの発作で悪態をつき、喫煙することだけです.
Windows 7
を使用しています。最新バージョンの xampp (64 ビット、ルートにインストール) をインストールしました。
最新の Java DK をインストールしました。
Xampp と JDK を管理者として実行するように設定しました。
記事ページのファイルを取得しました。
私はそれらを解凍しました。
mwxml2sql ツールを使用しました。
実行できませんでした(どの設定/フラグを試しても)。
mwxml2sql ツールの GUI バージョンを使用しました。
実行された後、4300 行でエラーが発生しました。
エラーは name_title の重複キーに関するものでした。
私は wikokit を見てきましたが、それは数年遅れているようです。
私は途方に暮れています。
dupe-key エラーの前に DB に入ったデータを見てきました。
一部のデータが Blob 形式で表示されます。
どのようにphp経由でその情報にアクセスするつもりですか?
このためのまともな(「ばか」のように:D)ガイドはありませんか?
本当にすべてのファイルを取得し、wiki をインストールし、ファイルを解析する必要がありますか?
重複したキーの問題をどのように処理するつもりですか (SQL ファイルを開いて関連する行を見つけることができるわけではありません!)?
それで、お願いします-誰かがこれをやったか、それを行う方法を知っていますか?
私が考えることができる唯一のことは、実際にサイトをスクレイピングしてみるということです - 私はむしろやりたくありません (そして wiki グループもそうしません)。
関連する場合 - 私は具体的には、単語の形、PoS、発音、定義、フレーズ、および関連する単語を調べています。語源などはいいのですが、それほど重要ではありません。
提案されている場合は、はい、WordNet を調べました (mysql ダンプを見つけることができ、それが機能するようになりました)。MRC や CMU dict などのリソースも見ましたが、適切な権限を持っているものはありません。ウィクショナリーがとても魅力的に見えたのはそのためです。しかし、フォーマット/ダンプは友好的とはほど遠いようです:(
それで、助けやアイデアはありますか?代替ソース、ガイド、ウォークスルー...すべてが役立ちます.
または、エラーの原因とその回避方法、単語データへのアクセス方法を教えていただければ幸いです。
よろしくお願いします - 欲求不満。