1

隅々まで探しました。何を検索すればいいのかわからないかも…

「保護された」PDF のインデックス作成と検索ができるようにする必要があります。これらの PDF は「コピー禁止」属性が選択されており、ロックされています。つまり、ユーザー名とパスワードなしで PDF のコンテンツをコピーする方法はありません。IFilter はこれらの設定を尊重し、PDF のインデックス作成を許可しません。

aspx.net を使用して、サーバー上でこれらの PDF を索引付けおよび検索する手段を探しています。次のいずれかで立ち往生しているようです。

  1. これらの PDF を開いてコンテンツへの「コピー」アクセスを取得するために必要な資格情報を持っている必要があります。
  2. 私のツール用に PDF を送信する場合、次の 2 つのアイテムを送信する必要があります。単語のコピー - および - PDF のコピー
  3. コンテンツ全体を PDF のメタ データにコピーするか、少なくともいくつかのキーワードをコピーします。ここでどのようなリスクが伴う可能性があるかについては調べていません。これは、ライターにとって追加のステップを意味します

解決策 1 と 2 は、重複コピーを維持することを意味します... サーバーまたは DB のいずれかにあり、実際のダウンロードをプログラムで参照します。誰かがこれに対する解決策を思いついたことがありますか? コンテンツの重複がないことを意味するため、インデックス作成機能をお勧めします。解決策 3 は、PDF のメタデータがそれだけ多くのコンテンツを処理でき、セキュリティが損なわれていない場合に魅力的です。また、C#またはVBを介して資格情報を使用してアクセスできるPDFへのプログラムによるアクセスについても疑問に思いました...しかし、行き詰まっているようです。

これは、別の解決策を見つけるための最後の努力です。どんな助けでも大歓迎です。

4

2 に答える 2

0

ファイルのユーザー名とパスワードを持っている場合、ファイルを開いてテキストを抽出することはできますか?

次に、抽出されたデータからインデックスを作成できます。

私が関わっているライブラリであるDocotic.Pdfは、パスワードで保護されたファイルを開くことができます。また、テキストも抽出できます。テキストは、プレーンまたはフォーマットされたテキストとして抽出でき、単語または文字で分割できます。

次のサンプルをご覧ください。

于 2012-10-03T16:04:36.090 に答える
0

私は完全に異なる解決策に行き着きました。私は MS のインデックス作成を利用するというアイデアが気に入りましたが、SQL を使用して、PDF をアップロードするユーザーにキーワードまたは PDF のコンテンツをテキスト ボックスに貼り付ける方がはるかに簡単になっています。その後、SQL はその「列」にインデックスを付けることができます。あとは検索エンジンが行います。

これを検討するために時間を割いてくれてありがとう。

于 2012-10-12T16:52:32.563 に答える