0

doc、docx、xlsx、pdf、および txt ファイルを含むフォルダーがあります。この XQuery を使用して、これらすべてのファイルを Marklogic にアップロードしています。

for $d in xdmp:filesystem-directory("C:\uploads")//dir:entry
return 
  xdmp:document-load($d//dir:pathname,
    <options xmlns="xdmp:document-load">
    <uri>{concat("/documents/", string($d//dir:filename))}</uri>
    <permissions>{xdmp:default-permissions()}</permissions>
    <collections>{xdmp:default-collections()}</collections>
    <format>binary</format>
    </options>)

データベース用のコンテンツ処理もインストールしました。doc ファイルと pdf ファイルをアップロードすると、xml ファイルと xhtml ファイルに変換されます。ただし、docx、xlsx、および txt は変換されません。これらのファイルが変換されない理由を誰か教えてもらえますか?

4

1 に答える 1

6

Office OpenXML Extract パイプラインを有効にして、.docx、.xlsx、および .pptx ファイルを変換します。

これらの拡張子を持つファイルは、すでに XML です。拡張子を .zip に変更すると、相互に関連する XML 部分だけで構成されたファイルを抽出して確認できます。

Office OpenXML Extract パイプラインは、Office 2007/2010 ファイルを解凍し、他の変換パイプラインと同様に、必要な部分をメイン ファイルの兄弟ディレクトリに保存します。このパイプラインを使用すると、生の Open XML を保存できます。現時点では、DocBook の XHTML への変換は行われていません。

私が知っている .txt の変換はありません。これらは単なるテキスト ファイルであり、MarkLogic にテキストとして挿入されます。テキストを親要素でラップし、ファイル拡張子を .xml に変更するだけで、XML に変換できます。

お役に立てれば。

于 2012-06-28T16:01:53.307 に答える