私は、非常に大きな画像データセットで PyTorch フレームワーク NN をトレーニングする必要があるプロジェクトに取り組んでいます。これらの画像の一部は問題とはまったく無関係ですが、これらの無関係な画像はそのように分類されていません。ただし、それらが無関係であるかどうかを計算するために使用できるメトリックがいくつかあります (たとえば、すべてのピクセル値を合計すると、関連する画像とそうでない画像がよくわかります)。私が理想的にやりたいことは、Dataset クラスを取り、関連する画像のみでバッチを作成できる Dataloader を持つことです。Dataset クラスは画像とそのラベルのリストを知っているだけで、Dataloader はバッチを作成している画像が関連しているかどうかを解釈し、関連する画像のみを含むバッチを作成します。
これを例に適用するために、白黒画像のデータセットがあるとしましょう。白い画像は無関係ですが、そのようにラベル付けされていません。ファイルの場所からバッチをロードできるようにしたいのですが、これらのバッチには黒い画像のみが含まれています。ある時点で、すべてのピクセルを合計して 0 になるようにフィルタリングすることができます。
私が疑問に思っているのは、カスタム データセット、データローダー、またはサンプラーがこのタスクを解決できるかどうかということです。保存されたすべての画像のディレクトリとそのディレクトリ内のすべての画像のリストを格納するカスタム データセットを既に作成しており、getitem関数でそのラベルを含む画像を返すことができます。特定の画像を除外するために追加する必要があるものはありますか? または、そのフィルターをカスタム Dataloader または Sampler に適用する必要がありますか?
ありがとうございました!