現在、ドキュメント共有プラットフォームを構築しており、できるだけ多くのユーザーを引き付けるために、プラットフォームにすでに 10,000 ドキュメントを追加したいと考えています。資料はPDFファイルのみです。私は Symfony2 で作業していますが、これは問題にあまり変わらないと思います: これらのドキュメントから必要なメタデータ (たとえば、タイトル、説明の最初の 100 語) を自動的に抽出し、それを私のデータベース(私の場合、それを私のエンティティに水和しますが、私はその部分を知っています)。
私が探しているのはクローラーだと思いますが、このようなものがどこにあるのか、どのように機能させるのかわかりません。
前もって感謝します!