エンコードされたPDFファイルを定期的に受け取ります。エンコーディングは次のように機能します。
- PDFはAcrobatReaderで正しく表示できます
- すべてを選択し、AcrobatReaderを介してテストをコピーします
- テキストエディタに貼り付けます
- コンテンツがエンコードされていることが表示されます
したがって、例は次のとおりです。
13579 -> 3579;
hello -> jgnnq
これは基本的にASCII文字のオフセット(おそらくスワップ)です。
問題は、少数のサンプルにしかアクセスできない場合に、オフセットを自動的に見つけるにはどうすればよいかということです。エンコーディングオフセットが変更されているかどうかわかりません。私が知っているのは、PDF内に「名前:」、「要約:」、「合計:」などのテキストが通常(常にではないにしても)表示されることだけです。
ありがとうございました!
編集:フィードバックをありがとう。私は質問をより小さな質問に分割しようとします:
パート1:文字列内の同一のパーツを検出する方法は?