.docxワードファイル(xmlコンテンツ)を次のコード(C#)でテキストに変換しました:
private string ReadNode(XmlNode node)
{
if (node == null || node.NodeType != XmlNodeType.Element)
return string.Empty;
StringBuilder sb = new StringBuilder();
foreach (XmlNode child in node.ChildNodes)
{
if (child.NodeType != XmlNodeType.Element) continue;
switch (child.LocalName)
{
case "t": // Text
sb.Append(child.InnerText.TrimEnd());
string space = ((XmlElement)child).GetAttribute("xml:space");
if (!string.IsNullOrEmpty(space) && space == "preserve")
sb.Append(' ');
break;
case "tab":// Tab
sb.Append("\t");
break;
case "p":// Paragraph
if (ReadNode(child).Trim() != "")
{
sb.Append(ReadNode(child));
sb.Append(Environment.NewLine);
}
break;
default:
sb.Append(ReadNode(child));
break;
}
}
return sb.ToString();
}
コード内のページコンテンツの「行番号」を読み取るにはどうすればよいですか(「p」または「tab」と同様に読み取ります)。