3

現在、アラビア文字で書かれた 1950 年代のマレーシアの雑誌から情報を抽出するアプリケーションを開発しています。内容を分析し、他の文書とのリンクを見つけるために、アラビア語のコレクション全体をスキャンし、ラテン文字に変換しました。

このようにして、私は PDF の 2 つのコレクションを持っています。1 つはスキャンしたドキュメントの画像をアラビア文字で、もう 1 つはラテン語の音訳をテキスト形式で含んでいます。各PDFを並べて比較できるようにしたいと思います。この目的のために、2 つの PDF のスクロールを一緒にロックしたいと考えています。

さらに、ユーザーがいずれかのドキュメントでテキストを選択できるようにし、この選択が 2 番目のドキュメントに反映されるようにしたいと考えています。これを行うことにより、選択されたラテン語テキストを使用して、附属書コンテンツの複数のデータベースを照会できます。下の画像でわかるように、スキャンしたドキュメントのテキストを直接選択できない場合でも、段落は各 PDF でほぼ同じ位置にあります (アラビア語は右から左に書かれるため、鏡のように)。

インターフェイスのモックアップ

私は技術的な解決策を探していましたが、現時点での最善の方法は、2 つのキャンバスを使用し、選択とスクロール イベントをリッスンして反対側に反映させることです。私はpdf.jsで遊んでみましたが、PDF を表示し、同時にユーザー アクションによってトリガーされたイベントをリッスンするのに役立つようです。問題は、このライブラリのドキュメントが非常に少なく、非常に頻繁に更新されているにもかかわらず、まだ初期段階にあるように見えることです。

このようなシステムを簡単に実現するためのより良い解決策を知っていますか? 次の制約を考慮してください。

  • システムは最大人数で使用できる必要があり、外部データベースに接続できる必要があるため、オン Web が必要です。
  • 理想的には、マレーシアで最も使用されているブラウザーである Chrome、IE 8、Firefox 4 など、ほとんどのブラウザーで動作するはずです (ソース: gs statcounter ) 。
  • 使用されている Jawi と呼ばれるアラビア語のスクリプトは、標準のアラビア語ではなく、OCR に送信できません。これは、標準のエンコーディングすら存在しないためです (一部の文字は Unicode でさえ使用できません)。

ご回答ありがとうございます。

4

0 に答える 0