8

私はグーグルドライブAPIを使用してPDFファイルを保存および取得しています。検索パラメータを使用してこれらのファイルをクエリしたいと思います。

しかし、私がこれを実装し始める前に。グーグルが大きなPDFファイルのインデックス作成をどのように処理するか知りたいです。(600ページ以上25Mb以上)テキストベースのPDFについて知りたいです(ocrは必要ありません)

ドライブのWebサイトで検索を試しましたが、常に機能するとは限りません。

制限があるかどうか、そしてそれらが何であるかを知りたいです。

4

1 に答える 1

3

OCRを使用したPDFのこのページによると:

画像 (.jpg、.gif、.png) および PDF ファイル (.pdf) の最大サイズは 2 MB です。PDF ファイルの場合、抽出するテキストを検索するときに最初の 10 ページのみを調べます。

そして、テキスト付きのPDFのこのページ:

PDF および画像ファイル内のテキストは、次の方法で検索できます。

  • ウェブ上の Google ドライブの検索ボックスにクエリを入力します。
  • Google ドライブ ビューアを開き、右上の検索ボックスを使用します。

理論的には、アップロードしたテキスト ドキュメントまたはテキスト ベースの PDF の最初の 100 ページを検索できるはずです。また、ドライブ上の画像 PDF の最初の 10 ページにあるテキストを検索することもできます。

于 2012-08-31T12:54:24.203 に答える