2

このトピックの回答は、PDFが単語を見つけられないことがある理由と、さまざまなPDF単語数プログラムを使用しているときにさまざまな単語数を取得し続ける理由を理解するのに役立ちました。を使用することにしましたxpdf。それをテキストに変換し、-layoutタグを追加してから、結果のテキストファイルをWord2003で開きました。単語数を記録しました。次に、残念ながら、-layoutタグを削除することにしました。ただし、今回は単語数が異なります。

そのタグが単語数に影響したのはなぜですか?PDFファイルの単語数を見つける正確な方法はありますか?それが私に正しい単語数を与える限り、私がそうしなければならないならば、私はそのようなソフトウェアにさえお金を払うでしょう。

別のトピックを確認しましたが、提供したソリューションですべてが解決するかどうかを確認したいと思いました。advancedpdfが推奨される別のトピックがありました。)

4

2 に答える 2

2

信頼できる単語カウントはないと主張したい。たとえば、あなたの人生をより困難にするために、この素​​敵な Stackoverflow の回答の各文字を 1 つのテキスト オブジェクトに配置し、レンダリングされた場合にのみ人間にとって意味のある段落を提供するように、そのようなオブジェクトを配置することができます。このような:

<html><body><style>
div {float: left;}
</style><div><p>S</p></div><div><p>t</p></div><div><p>a</p></div>
<div><p>c</p></div><div><p>k</p></div>
于 2012-03-01T14:52:45.753 に答える
0

Java を使用したオープン ソース ソリューションをお勧めします。まず、pdf ファイルを解析し、 Tikaを使用してすべてのテキストを抽出する必要があります。

次に、抽出されたテキストをスキャンして単語を数えるだけで、これを達成できると思います。

サンプル コードは次のようになります。

 if (f.getName().endsWith(".txt")) 
        {
            in = new BufferedReader(new FileReader(f));
            StringBuilder sb = new StringBuilder();
            String s = null;
            while ((s = in.readLine()) != null) 
                sb.append(s);

            String[] tokenizedTerms = sb.toString().replaceAll("[\\W&&[^\\s]]", "").split("\\W+");   //to get individual terms

        }     

tokenizedTerms 配列には、ドキュメントのすべての用語 (単語) が含まれており、tokenizedTerms.length() を呼び出すことでそれらを数えることができます。これが役に立ったことを願っています。:-)

于 2013-10-02T09:12:04.400 に答える