0

現在、ドキュメント共有プラットフォームを構築しており、できるだけ多くのユーザーを引き付けるために、プラットフォームにすでに 10,000 ドキュメントを追加したいと考えています。資料はPDFファイルのみです。私は Symfony2 で作業していますが、これは問題にあまり変わらないと思います: これらのドキュメントから必要なメタデータ (たとえば、タイトル、説明の最初の 100 語) を自動的に抽出し、それを私のデータベース(私の場合、それを私のエンティティに水和しますが、私はその部分を知っています)。

私が探しているのはクローラーだと思いますが、このようなものがどこにあるのか、どのように機能させるのかわかりません。

前もって感謝します!

4

1 に答える 1

1

本当の質問がないのと同じように:

  • 許可するドキュメントの種類/形式を定義する
  • php で各ドキュメント タイプを読み取る方法については、Google を参照してください (php-functions、libraries、code-snippets)
  • アップロードされたドキュメントのファイル タイプを判別する
  • googled funcs、libs などを使用して php のファイルを読み取ります。

これらすべてを行った後、特定の問題が発生した場合: 本当の質問をしてください ;)

于 2013-07-19T09:29:17.567 に答える