pdf - PDFファイルの正しい単語数を取得する

Question

このトピックの回答は、PDFが単語を見つけられないことがある理由と、さまざまなPDF単語数プログラムを使用しているときにさまざまな単語数を取得し続ける理由を理解するのに役立ちました。を使用することにしましたxpdf。それをテキストに変換し、-layoutタグを追加してから、結果のテキストファイルをWord2003で開きました。単語数を記録しました。次に、残念ながら、-layoutタグを削除することにしました。ただし、今回は単語数が異なります。

そのタグが単語数に影響したのはなぜですか？PDFファイルの単語数を見つける正確な方法はありますか？それが私に正しい単語数を与える限り、私がそうしなければならないならば、私はそのようなソフトウェアにさえお金を払うでしょう。

（別のトピックを確認しましたが、提供したソリューションですべてが解決するかどうかを確認したいと思いました。advancedpdfが推奨される別のトピックがありました。）

score 2 · Accepted Answer

信頼できる単語カウントはないと主張したい。たとえば、あなたの人生をより困難にするために、この素敵な Stackoverflow の回答の各文字を 1 つのテキストオブジェクトに配置し、レンダリングされた場合にのみ人間にとって意味のある段落を提供するように、そのようなオブジェクトを配置することができます。このような：

<html><body><style>
div {float: left;}
</style><div><p>S</p></div><div><p>t</p></div><div><p>a</p></div>
<div><p>c</p></div><div><p>k</p></div>

score 0 · Accepted Answer

Java を使用したオープンソースソリューションをお勧めします。まず、pdf ファイルを解析し、 Tikaを使用してすべてのテキストを抽出する必要があります。

次に、抽出されたテキストをスキャンして単語を数えるだけで、これを達成できると思います。

サンプルコードは次のようになります。

 if (f.getName().endsWith(".txt")) 
        {
            in = new BufferedReader(new FileReader(f));
            StringBuilder sb = new StringBuilder();
            String s = null;
            while ((s = in.readLine()) != null) 
                sb.append(s);

            String[] tokenizedTerms = sb.toString().replaceAll("[\\W&&[^\\s]]", "").split("\\W+");   //to get individual terms

        }

tokenizedTerms 配列には、ドキュメントのすべての用語 (単語) が含まれており、tokenizedTerms.length() を呼び出すことでそれらを数えることができます。これが役に立ったことを願っています。:-)

pdf - PDFファイルの正しい単語数を取得する

2 に答える 2

Related

Reference