Microsoft Word 2010 ドキュメントからテキスト データを解析するプログラムの作成に取り組んでいます。具体的には、文書内のすべての表の最初の列の各セルからテキストを取得したいと考えています。
参考までに、ドキュメントは次のようになります。
各ページの最初の列のセルからのテキストのみが必要です。このテキストを内部データテーブルに追加します。
これまでのところ、私のコードは次のようになります。
private void button1_Click(object sender, EventArgs e)
{
// Create an instance of the Open File Dialog Box
var openFileDialog1 = new OpenFileDialog();
// Set filter options and filter index
openFileDialog1.Filter = "Word Documents (.docx)|*.docx|All files (*.*)|*.*";
openFileDialog1.FilterIndex = 1;
openFileDialog1.Multiselect = false;
// Call the ShowDialog method to show the dialog box.
openFileDialog1.ShowDialog();
txtDocument.Text = openFileDialog1.FileName;
var word = new Microsoft.Office.Interop.Word.Application();
object miss = System.Reflection.Missing.Value;
object path = openFileDialog1.FileName;
object readOnly = true;
var docs = word.Documents.Open(ref path, ref miss, ref readOnly,
ref miss, ref miss, ref miss, ref miss,
ref miss, ref miss, ref miss, ref miss,
ref miss, ref miss, ref miss, ref miss,
ref miss);
// Datatable to store text from Word doc
var dt = new System.Data.DataTable();
dt.Columns.Add("Text");
// Loop through each table in the document,
// grab only text from cells in the first column
// in each table.
foreach (Table tb in docs.Tables)
{
// insert code here to get text from cells in first column
// and insert into datatable.
}
((_Document)docs).Close();
((_Application)word).Quit();
}
各セルからテキストを取得してデータテーブルに追加する部分で立ち往生しています。誰かが私にいくつかの指針を提供できますか?私は確かにそれを感謝します。
ありがとう!