c# - C＃PdfSharpを使用してPDFからテキストを抽出する

Question

PdfSharpを使用してPDFファイルからプレーンテキストを抽出する可能性はありますか？ライセンスがあるので、iTextSharpは使いたくありません。

score 21 · Accepted Answer

Davidが行った方法と同様の方法で実装しました。これが私のコードです：

    {
        // ....
        var page = document.Pages[1];
        CObject content = ContentReader.ReadContent(page);
        var extractedText = ExtractText(content);
        // ...
    }

    private IEnumerable<string> ExtractText(CObject cObject )
    {
        var textList = new List<string>();
        if (cObject is COperator)
        {
            var cOperator = cObject as COperator;
            if (cOperator.OpCode.Name== OpCodeName.Tj.ToString() ||
                cOperator.OpCode.Name == OpCodeName.TJ.ToString())
            {
                foreach (var cOperand in cOperator.Operands)
                {
                    textList.AddRange(ExtractText(cOperand));
                }
            }
        }
        else if (cObject is CSequence)
        {
            var cSequence = cObject as CSequence;
            foreach (var element in cSequence)
            {
                textList.AddRange(ExtractText(element));
            }
        }
        else if (cObject is CString)
        {
            var cString = cObject as CString;
            textList.Add(cString.Value);
        }
        return textList;
    }

c# - C＃PdfSharpを使用してPDFからテキストを抽出する

3 に答える 3

Related

Reference