-2

みなさん、「たくさん」のpdfファイルを検索できる検索エンジンを作りたいと思っています。タイトルだけでなく、pdfファイル内のコンテンツを検索したい。このアプリケーションはファイルをアーカイブするためのものなので、一致する単語を簡単に検索できます。たとえば、Google では、「filetype:.pdf home」を使用できます。その結果、コンテンツに「home」という単語を含むすべての PDF ファイルが表示されます。このウェブベースのアプリケーションを手伝ってもらえますか?

4

1 に答える 1

0

アプリケーションが Linux で実行されていて、システム コマンドを実行できる場合は、'pdftotext' コマンドを使用して pdf ファイルをプレーン テキストに変換し、それをインデックス化してみてください。

テキストは表示順であり、意味的に正しい順序ではないことに注意してください (2 つのコラムの記事では非常に奇妙な結果が得られます)。そのため、テキストを表示しても意味がなく、文の検索が正しく機能しない可能性があります。

于 2013-02-27T14:15:21.253 に答える