問題タブ [google-vision]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
android - CameraSource.takephoto 回転
Google Vision を使用CameraSource.takephoto
して、顔を検出するために写真を撮りたいのですが、写真が回転しています。レガシーコードを使用して回転させようとしました
ただし、ExifInterface.getAttribureInt
常に0を返すため、画像は間違った回転を維持します
java - Java での Google Vision API の統合 (エラー)
以下の github サンプル コード リンクを使用して、プロジェクトに Google ビジョン サービスを実装して追加しようとしています。 https://github.com/GoogleCloudPlatform/java-docs-samples/tree/master/vision/text/ ImageText および Word Java クラスでこのエラーが発生します。
AutoValue_ImageText タイプは解決できず、
AutoValue_Word 型は解決できません。助けてください!これらの構文エラーを修正して、このコードが適切に準拠しているかどうかを確認することさえできません。前もって感謝します
android - camerasource.takePicture() 回転した画像をデバイスに保存する
顔の追跡にvision apiを使用しています。顔の位置に基づいてマスクを適用しました。前面カメラから写真を撮るときは、camerasource.takePicture() を呼び出して画像を保存します。サムスンなどの一部のデバイスで画像の回転の問題に直面しており、画像をキャプチャするとマスクと顔が表示されますExif クラスを使用して画像の向きを取得しますが、常に 0 を返すため、画像を回転できません。次のクラスを使用して getOrientation と画像を回転させています。
}
Vision API でこの問題を見つけました。解決策はありますか。
java - Android cameraSource.stop() によりアプリがフリーズする
Google Vision APIを使用してqrスキャナーを持つアプリを構築しています。QRコードを読み取った後、カメラを停止するのに苦労しています。フローはMainActivity -> QrActivity
、qr コードが検出を受信すると、アプリはメイン アクティビティに戻る必要があります。
電話をしなくcameraSource.release()
ても問題なく動作しますが、デバイスがかなり熱くなり、バッテリーの消耗に大きな影響を与えます。ただし、カメラ ソースを解放すると、mainActivity が応答しなくなり、アプリがクラッシュします。
応答しなくなるのはなぜですか?カメラソースを解放する正しい場所はどこですか?
QrActivity
QrReader クラス
android - オープンソースの Google Vision API CameraSource クラスは時代遅れですか?
このSO スレッドで、pm0733464は次のように述べています。
オート フォーカス メソッドも持つ CameraSource クラスをオープン ソース化しました。これにより、公式 API のデフォルトである「連続ビデオ」モードとは対照的に、特定のフォーカス モードを設定できます。
それは素晴らしかった。しかし、Google Vision API は進んでいるように見えますが、オープン ソース バージョンは進んでいません。公式 API には、FocusingProcessor と呼ばれる新しいタイプのプロセッサが含まれるようになりました。これにより、検出器は OnFocus イベントにのみ応答できます。
私の実験では、公式の Google Vision API サンプルで例が示しているプロセッサを使用するよりもはるかに高速にバーコードを「検出」します。
私はどこかで何かを逃していますか?または、Google.Vision ライブラリの CameraSource は、オープン ソースで表示されているものと同じではありませんか?
[編集] pm0733464 のリクエストによるコードの共有:
記録のために、バーコードの自動検出を可能にする Vision API Demo のフォークから始めました。
私のコードはいくつかの簡単な変更を加えています。まず、スキャン可能なバーコードに PDF417 を追加します。次に、プロセッサをオートフォーカスに設定しました。グラフィック表示が必要ないため、トラッカーを nullTracker に変更しました。これにより、速度が向上することを期待しました
BarcodeCaptureActivityで、バーコード検出器を定義した createCameraSource を次のように 変更します。
私の FocusProcessor (同じクラス内) は次のようになります。
android - モバイル ビジョン API android でカスタム フォントをテキスト認識機能 (OCR) に設定する
小切手をスキャンできるアプリケーションを開発しています。Tesseract でテストしましたが、動作します。テキスト認識 API モバイル ビジョンをトレーニングして、小切手のタイポグラフィを認識できるかどうか疑問に思っています。
google-cloud-platform - 特定の言語の Google Vision API の TEXT_DETECTION を改善する方法
Google Vision API の TEXT_DETECTION に興味があります。しかし、テキストが英語の場合、 TEXT_DETECTION は正確な結果しか得られないようです。私の場合、特定の言語 (私の場合はベトナム語) の広告バナーの検出テキストなど、非常に狭いコンテキストで TEXT_DETECTION を使用したいと考えています。より正確な結果を得るために、自分のデータ コレクションでマシンをトレーニングできますか? そして、これを実装する方法は?
Google Vision API の TEXT_DETECTION のほかに、Google には、Tesseract の依存関係を使用する Google の光学式文字認識 (OCR) ソフトウェアもあります。私が知っているように、それらはテキストを検出するための異なるアルゴリズムを持っています。Google Docs と Google Vision API の TEXT_DETECTION の両方を使用して、画像からテキスト (ベトナム語) を読み取りました。Google Docs は良い結果をもたらしましたが、Vision API はそうではありませんでした。Google Vision API が Google OCR の利点を継承しないのはなぜですか?
Google Vision API のテキスト検出についてもう少し言いたいことがあります。Google の専門家なら誰でもここで読むことができます。Google が発表したように、彼らの TEXT_DETECTION は素晴らしかったです。「この画像の単語は傾いていて不明瞭ですが、OCR は単語とその位置を正しく抽出します。プレゼンターの T シャツの「ビーコン」という単語も検出します」. しかし、私の写真のいくつかでは、起こったことは本当に面白いものでした. たとえば、この写真では、「Kem Oxit」という言葉でさえ写真の中央に非常に大きく、認識されませんでした。または、この写真では、写真中央の赤いテキスト「HOA CHAT NGOC VIET」も認識されませんでした。テキスト検出アルゴリズムに何か問題があるに違いありません。