6

わかりました。ウィキメディアが提供するウィクショナリーデータ ダンプを解析しようとしています。

私の意図は、その XML データ ダンプを MySQL データベースに解析することです。この XML の構造に関する適切なドキュメントが見つかりませんでした。また、実際には非常に巨大なため(〜1 GB)、ファイルを開くことができません。

PHPスクリプトを使用して解析することを考えましたが、続行するXML構造についてはまったくわかりません。したがって、PHP を使用して MySQL に既に解析した (または解析するツールについて考えている) 人がいる場合は、詳細を共有してください。PHPに無ければ他の方法でも構いません。

この投稿 ( http://www.igrec.ca/lexicography/installing-a-local-copy-of-wiktionary-mysql/ ) に従いましたが、うまくいきませんでした..:( 誰かがこれに成功した場合プロセス, 助けてください. よろしくお願いします.

4

1 に答える 1

4

これらのファイルは、ストリームXMLReaderを操作してPHP で解析できます。あなたが持っているファイルの構造は模範的です(約最初の3000要素をのぞきます):compress.bzip2://

\-mediawiki (1)
  |-siteinfo (1)
  | |-sitename (1)
  | |-base (1)
  | |-generator (1)
  | |-case (1)
  | \-namespaces (1)
  |   \-namespace (40)
  \-page (196)
    |-title (196)
    |-ns (196)
    |-id (196)
    |-restrictions (2)
    |-revision (196)
    | |-id (196)
    | |-parentid (194)
    | |-timestamp (196)
    | |-contributor (196)
    | | |-username (182)
    | | |-id (182)
    | | \-ip (14)
    | |-comment (183)
    | |-text (195)
    | |-sha1 (195)
    | |-model (195)
    | |-format (195)
    | \-minor (99)
    \-redirect (5)

ファイル自体が少し大きいので、処理にかなり時間がかかります。mysqlあるいは、XML ダンプを操作せずに、コマンドライン ツールを使用して SQL ダンプをインポートするだけです。SQL ダンプもサイトで利用できます。英語のウィクショナリーのすべてのダンプ形式を参照してください。


全体のファイルは、66 849 000 を超える要素で少し大きくなりました。

\-mediawiki (1)
  |-siteinfo (1)
  | |-sitename (1)
  | |-base (1)
  | |-generator (1)
  | |-case (1)
  | \-namespaces (1)
  |   \-namespace (40)
  \-page (3993913)
    |-title (3993913)
    |-ns (3993913)
    |-id (3993913)
    |-restrictions (552)
    |-revision (3993913)
    | |-id (3993913)
    | |-parentid (3572237)
    | |-timestamp (3993913)
    | |-contributor (3993913)
    | | |-username (3982087)
    | | |-id (3982087)
    | | \-ip (11824)
    | |-comment (3917241)
    | |-text (3993913)
    | |-sha1 (3993913)
    | |-model (3993913)
    | |-format (3993913)
    | \-minor (3384811)
    |-redirect (27340)
    \-DiscussionThreading (4698)
      |-ThreadSubject (4698)
      |-ThreadPage (4698)
      |-ThreadID (4698)
      |-ThreadAuthor (4698)
      |-ThreadEditStatus (4698)
      |-ThreadType (4698)
      |-ThreadSignature (4698)
      |-ThreadParent (3605)
      |-ThreadAncestor (3605)
      \-ThreadSummaryPage (11)
于 2014-08-10T19:46:42.297 に答える