xpath - C#で単語(docx)ドキュメントからテキストを取得するには?

Question

Word文書からプレーンテキストを取得しようとしています。具体的には、xpath が問題を引き起こしています。タグの選び方は？これが私が持っているコードです。

public static string TextDump(Package package)
{
    StringBuilder builder = new StringBuilder();

    XmlDocument xmlDoc = new XmlDocument();
    xmlDoc.Load(package.GetPart(new Uri("/word/document.xml", UriKind.Relative)).GetStream());

    foreach (XmlNode node in xmlDoc.SelectNodes("/descendant::w:t"))
    {
        builder.AppendLine(node.InnerText);
    }
    return builder.ToString();
}

score 6 · Accepted Answer

問題は XML 名前空間です。完全な名前空間SelectNodesに変換する方法がわかりません。したがって、 2 番目の引数として<w:t/>an を取るオーバーロードを使用する必要があります。XmlNamespaceManager私はあなたのコードを少し修正しましたが、うまくいくようです:

    public static string TextDump(Package package)
    {
        StringBuilder builder = new StringBuilder();

        XmlDocument xmlDoc = new XmlDocument();
        xmlDoc.Load(package.GetPart(new Uri("/word/document.xml", UriKind.Relative)).GetStream());
        XmlNamespaceManager mgr = new XmlNamespaceManager(xmlDoc.NameTable);
        mgr.AddNamespace("w", "http://schemas.openxmlformats.org/wordprocessingml/2006/main");

        foreach (XmlNode node in xmlDoc.SelectNodes("/descendant::w:t", mgr))
        {
            builder.AppendLine(node.InnerText);
        }
        return builder.ToString();
    }

score 2 · Accepted Answer

Open XML Format SDK 2.0をご覧ください。こののように、ドキュメントを処理する方法の例がいくつかあります。

私は使用していませんが、こちらのOpen Office XML C# Libraryも参照してください。

xpath - C#で単語(docx)ドキュメントからテキストを取得するには?

2 に答える 2

Related

Reference