問題タブ [document-imaging]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql-server - ドキュメント/画像データベース リポジトリの設計に関する質問
質問:
データベース イメージ リポジトリに直接アクセスするアプリケーションを作成するか、ドキュメント リクエストを処理するミドルウェアを作成する必要があります。
バックグラウンド:
現在、約 1,500 万のドキュメント/ドキュメント イメージ (90% 以上の単一ページ、グループ 4 TIFF、残りの PDF、Word、および Excel ドキュメント) を保存するカスタム ドキュメント イメージングおよびワークフロー アプリケーションがあります。イメージ リポジトリは商用のサードパーティ アプリケーションであり、非常に高価であり、率直に言ってオーバーヘッドが大きすぎます。ドキュメント画像を保存および取得するシステムが必要なだけです。
イメージを SQL Server 2005 データベースに直接移動することを検討しています。インデックス情報は非常に限られています - 基本的に 2 つのインデックス フィールドです。これは生命保険証券管理システムなので、証券番号とシステム全体で一意の ID 番号を使用して画像にインデックスを付けます。他にもインデックス値がありますが、それらは画像データとは別に保存および維持されます。これらのインデックス値により、個々の画像を取得するための一意の ID 値を検索できます。
データベース サーバーは、DB ファイルをホストする SAN ドライブを備えたデュアル クアッド コア Windows 2003 ボックスです。現在のイメージ リポジトリのサイズは約 650 GB です。変換後のデータベースのサイズを確認するためのテストは行っていません。データベースの設計について質問しているわけではありません。その点については DBA と協力しています。それが変わったら、私は戻ってきます:-)
交換する現在のシステムは明らかにミドルウェア アプリケーションですが、3 つの Windows サーバーにまたがる非常に重量のあるシステムです。この道を行くとしたら、それは単一のサーバー システムになります。
私の主な関心事はスケーラビリティとパフォーマンスであり、パフォーマンスに重点を置いています。私は約 100 人のユーザーを抱えていますが、今後数年間はおそらく使用量の伸びが鈍化するでしょう。ほとんどのユーザーは主に読み取りユーザーであり、システムにイメージを頻繁に追加することはありません。リポジトリへのイメージのスキャンや追加を処理する部門があります。ドキュメントを (ftp 経由で) 受信し、受信したドキュメントを自動的にリポジトリに挿入するアプリケーションもいくつかあります。完全なインデックス情報、またはユーザーがレビューしてインデックスを作成する「バッチ」として挿入されます。
ドキュメント/画像のほとんど (90% 以上) は非常に小さく、100K 未満、おそらく 50K 未満であるため、SQL 2008 を取得してファイルストリームを使用するよりも、データベース ファイルに画像を保存するのが最も効率的であると考えています。
twain - TWAINデバイスのシミュレーション
当社は、「イメージングデバイス」、つまりTWAINデバイス(スキャナーなど)からの入力のみを受け入れるソフトウェアを使用しています。
問題は、ファイルをデジタルで受信していることです。したがって、実際のスキャナーを使用するには、ソフトウェアではなくコンピューターに既にあるドキュメントを印刷、スキャン、および細断処理する必要があります。
その間にこの問題をどのように回避できるかについて誰かが何か考えを持っているかどうか私は興味がありました。私の最初の考えは、ファイルを読み込んでソフトウェアに吐き出す新しい「イメージングデバイス」を介して、プログラムをだましてスキャナーを使用していると思わせる方法を見つけることでしたが、私もしませんそれからどこから始めればよいかを知っています。
この問題がソフトウェア自体で明らかにどのように対処されるべきかを考えて、機能リクエストを提出しましたが、同社はアップデートに関してかなり遅れていることで有名です。
document-imaging - Scantron Cognition Enterpriseのリソース?
Scantron Cognition Enterpriseを使用して、スキャンしたフォームからデータをキャプチャしています。これらのフォームを作成するのは、せいぜい面倒です。特に、作成済みのオブジェクトのライブラリを使用するのがよい場合はなおさらです。残念ながら、ドキュメントとオンラインリソースは不足しています。
誰かがこのツールのいくつかのリソースを見つけるためのポインタを持っていますか?
php - Web ページと VB アプリケーションの間でデータを渡す
社内で社内用のアプリケーションを開発しています。このアプリケーションの目的は、ドキュメントのイメージングです。私たちがやりたいことは、ドキュメントに添付するバーコード ラベルを印刷して、vfiler などのソフトウェアでスキャンしたときに、バーコードを読み取ってファイルする方法を知ることができるようにすることです。
主な焦点は、Web ベース (PHP) の ERP システムです。ユーザーが注文または PO を入力するとすぐにバーコード ラベルを印刷できるように、コードを変更したいと考えています。ERP Web ページのソース コードにアクセスできます。プリンター選択ダイアログを表示せずに Web ページをプリンターで印刷する方法がわかりません。そこで、バーコードの印刷を行う VB アプリケーションを作成してみようと決心しました。これにより、プリンター選択ダイアログをバイパスできます。
それでは質問です。サーバー上で実行されている Web ページ (PHP) に VB アプリを呼び出してタスクを実行させる方法はありますか? したがって、Web ページにボタンがあり、ユーザーがそれをクリックした場合、そのボタンは何らかの形で関連情報 (注文番号) を VB アプリに送信し、VB アプリはバーコードを印刷します。VB アプリは常にマシン上で実行されます。ラベル プリンターは、各ユーザーのマシンの Zebra USB ラベル プリンターになります。
どんな考えでも大歓迎です。
ありがとう、キース
python - Pythonで解析ルールをエンコードする方法は?
多くのクラスのXMLオブジェクト(たとえば、ドキュメントイメージのタイプ)を考えると、オブジェクトのクラスに応じていくつかの出力を生成する必要があり、XMLファイルのコンテンツに関連する複雑な数学的ルールのセットを生成する必要があります。
このタスクの総称は何ですか(解析?)。ルールには数学的な関係が含まれる可能性があることを念頭に置いて、クラスごとに個別のルールをエンコードする最も簡単な方法は何ですか。DSLを使用して管理しやすくするために、クラスごとにファイルを作成する必要があると思いますが、よくわかりません。誰かが本格的なLuaまたはJavascriptインタープリターを組み込むことを提案しました。これは良い考えですか?無駄のないシンプルなものにしたい。
algorithm - フォーム フィールドの HSV 色の除去/ドロップアウト
フォーム画像から特定のフィールド境界線をドロップアウトするシステムを作成しています。フィールドには、手書きがフィールドの境界を越えても正しく保持する必要がある書き込みが含まれている場合があります。
2 つの画像があります: 1 つのカラー画像 (HSV 色空間に変換) と 1 つの白黒画像 (これらはスキャナーによって生成されます)。
カラー画像の色を考慮して、白黒画像からフィールド境界ピクセルを削除 (摘み取り) したいと思います。
私は、フィールドの正確な位置と、フィールドの境界線の幅/高さをアプリオリに知っているという利点があります。
私の現在の実装は、(フィールドごとに)カラー画像のフィールド境界をスキャンし、そのフィールド境界の平均HSV値を計算することで構成されています(フィールド境界がどこにあるかを正確に知っているため、「フィールド境界」ピクセルのみにアクセスしますが、また、フィールドの境界を越える場合は、いくつかの手書きピクセルにアクセスすることもあります。これは、平均をあまり歪めないという考えによるものです)。フィールド境界の「平均」HSV 値を取得したら、フィールド境界を再度スキャンし、ピクセルごとに次のデルタ関数を計算します。
「現在の」ピクセルと平均 HSV の間のデルタ値が 0.07 未満 (経験的に判明) の場合は、ピクセルを白に設定し (色が互いに接近している)、それ以外の場合はピクセルを黒のままにします。
フィールドの例を次に示します。
カラー画像: 白黒画像 非ドロップアウト: ドロップアウトされた白黒画像 式で彩度が使用されていない場合: 実際のドロップアウトされた白黒画像 数式が完全に使用されている (H、S、および V の 3 つのコンポーネントすべてを使用)
3番目のドロップアウト画像を取得するために使用している式は上記の式ですが、式から彩度を除外しました(私はちょうど物事をいじっていました)。
これは明らかに色の変化に対して十分に繊細ではありませんが、式は彩度の変化に非常に敏感です (これは主に、画像内に存在する JPEG 圧縮のアーティファクト (アーティファクトの例) によって引き起こされます)。
4 番目の例は、色の変化に非常に敏感であるため、手書きを削除する可能性が低いため、最適だと思いますが、問題は、単純なスキャンまたは圧縮アーティファクトによって生じるわずかな色の違いにより、境界線を拾いやすくなることです。 .
フィールドの境界内で発生する色 (彩度) の変動の一部を緩和するために、ヒストグラムを使用することについてどうお考えですか? ビンの数を減らすために量子化が含まれていますか?
私は人々が持っているアイデアを聞きたいです。
ありがとうございました。
ios - カメラの画像のコーナー検出
私は iOS プログラミングに非常に慣れておらず、現在、iOS の新しいプログラミング言語である Swift を試して、利用可能なライブラリなどを確認しています。現在、ドキュメントの写真を撮る新しいプロジェクトをxcode 6で作成しようとしています。しかし、私が欲しいのは、コーナー検出を行うことです。次に、ユーザーは(ユーザーに応じて)コーナーを大きくしたり小さくしたりして、その画像をトリミングできます。たとえば、オフィス レンズ アプリ。
私はほとんど調査を行いませんでしたが、いくつかの開発者が GPUImage の使用を提案しました。iOS8に対応していますか?必要なものを得るのに役立つ他のツールやより簡単な構成はありますか?
iOS8でxcode6.1以降で動作するライブラリは他にありますか? コーナー検出を行う方法に関して正しい方向を特定できるサードパーティのライブラリや例についてはあまり知りませんか?
どんなヒントや提案も素晴らしいので、私はこの作品で学び、より良くなることができます. ありがとう!
c# - Kofax VRS サポートを使用してアプリケーションを開発する正しい方法
Kofax を扱っていると、ときどき混乱します... 昔 (何年も前)、私は Kofax ImageControls Toolkit を使用してドキュメントをスキャン、表示、および印刷するためのアプリケーションを開発していました。
ツールキットを使用して最後にアプリケーションを開発したのは少し前ですが、C# でした。当時でさえ、ツールキットで更新されたものを見つけることができず、最終的に入手できる最新のものを使用する必要があったことを覚えていますKofax ImageControls Toolkit v3
。これにより、Kofax の VRS v4 ソフトウェアを利用できるようになります。
何年も経って早送りし、Kofax (v5) の最新の VRS ソフトウェアを利用する別のアプリケーションを作成しようとしています。問題は、Net Framework 4.5.2 で c# を使用する Windows 10 環境にいることです。VRS 5 ソフトウェアを利用するアプリケーションを開発するために Kofax が何を使用することを推奨しているかを理解しようとしています。1998 年に開発されたツールキット (v3.1) をまだ使用しているはずですか??? 2003年頃に出たと思われるv3.75の痕跡を見たことがありますが、それを手に入れることはできません。
画像処理に VRS ソフトウェアを使用するアプリケーションを開発する方法について、誰かが正しい方向に向けることができますか?