0

繰り返し形式パターンのデータを含む docx 形式の Word ドキュメントがあります。

繰り返しセットから各データを取得し、SQL テーブルの行にアップロードしたいと思います。

ここのデータのサンプル:

Question No : 1
How is LINQ to SQL different from Entities?

A. Answer 1
B. Answer 1
C. Answer 1
D. Answer 1

Answer : D
Explanations : 
Some explanation.

Question No : 2
How is NVARCHAR different from VARCHAR

A. Answer 1
B. Answer 1
C. Answer 1
D. Answer 1

Answer : D
Explanations : 
Some explanation.


- Office API を使用して文書を docx として読み取る
- Word から文書を XML として保存し、XML を解析する [変換された XML 文書には構造/スキーマがないようです]
- ドキュメントを HTML として保存しますWord と parse HTML [DOM 構造が適切に形成されていない]

上記のうち、どれをお勧めしますか?その理由は? ドキュメントを変換して SQL テーブルにアップロードしたり、DB にアクセスしたりするのに役立つツールはありますか?

ありがとう!

4

2 に答える 2

3

DOCX は、XML ファイルの単なる ZIP ディレクトリ ツリーです。WinZip または 7-Zip を使用して、一連のサブディレクトリに展開します。これらの XML ファイルを SQL Server にアップロードし、ファイル名とフォルダー パスを追加します。SQL Server XML メソッド (.node など) を使用して、必要なリレーショナル形式に分割します。

これらには XML スキーマと構造があることに注意してください。

于 2009-08-17T04:55:25.063 に答える
1

これらのファイルをあまり頻繁に処理しない場合は、別の形式 (SQL で処理しやすい) で保存することをお勧めします。プレーン テキスト形式でもかまいません。このプロセス (このファイルを DB にインポートするプロセス) が定期的に実行される場合は、中間形式に変換せずにネイティブ DOCX 処理を行ってください。Google で簡単に検索すると、docx 形式をデータベースに読み込むことができるコンポーネントが利用できることがわかりました (例: http://www.brothersoft.com/code-library-for-.net-(sql-server-msde)-22050.html ) 。

于 2009-08-17T06:33:59.887 に答える