対応する画像を見つけるために、自然言語のセマンティクスを(もちろんある程度まで)理解できる検索エンジン、またはテクノロジーのみを探しています。
その逆も同様に機能します。
たとえば、抱き合っている 2 人の男性とローマン スタイルでレスリングしている 2 人の男性を区別できるソフトウェアです。または - 入力: ラップトップ、コーヒー カップ、ルービック キューブ、出力を生成するスター ウォーズのおもちゃを備えた机の写真: プログラマー デスク。
対応する画像を見つけるために、自然言語のセマンティクスを(もちろんある程度まで)理解できる検索エンジン、またはテクノロジーのみを探しています。
その逆も同様に機能します。
たとえば、抱き合っている 2 人の男性とローマン スタイルでレスリングしている 2 人の男性を区別できるソフトウェアです。または - 入力: ラップトップ、コーヒー カップ、ルービック キューブ、出力を生成するスター ウォーズのおもちゃを備えた机の写真: プログラマー デスク。
私は自分の仕事のためにMetamind.ioに出会いました。これは、いくつかの深いニューラル ネットワークの魔法を使用して、画像を正しい方法で認識してラベル付けするものです。
トレーニング済みの分類器から良い結果が得られるか、独自のトレーニングを行うことができます。
ここでのパーティーには非常に遅れましたが、これは他の人が同じものを探しているのに役立つかもしれないと思いました.
基本的な画像解析に関しては、この分野は最近飛躍的に進歩しており、多くの人がこの機能を提供しています。品質はかなり異なり、プロバイダーのトレーニングの程度とコーパスの大きさによって異なります。私が一緒に仕事をした例としては、IBM と Clarifai がありますが、この分野は活況を呈しています。
彼らが与えないのは、あなたが求めている文脈のタイプです。とにかくまだ。彼らは、2 人の男性が抱き合っていることと 2 人の男性がレスリングをしていることを区別することはほとんどありません (とにかく、人間としての違いを誰が見分けることができるでしょうか?)。ただし、机、コーヒー カップ、本などを選ぶことはできます。
動画の検索と文脈化は、まったく別の課題であり、まだ始まったばかりです。この分野に大きく進出している会社が少なくとも 1 つあります (完全な免責事項、私はそこで働いています)。Movida Labsは、ビデオ内の多くの要素を分析およびインデックス化して、多くのコンテキストを提供するため、この例では、これが 2 人の男性がレスリングしているビデオであることがわかります。これはテクノロジーのある種のブレークスルー (非常に高度ですが) によるものではなく、ビデオ全体がそのコンテキストを提供するためであることを認めなければなりません。