問題タブ [text-database]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
296 参照

computer-vision - mjsynth データセットの画像を読み取る際の問題

最近、テキスト認識ネットワークをトレーニングしようとしています。mjsynth データセットをネットワークにフィードしてトレーニングを開始しようとしました。ただし、データセットには空白の画像がいくつかあるようです。そのため、トレーニング中にデータをネットワークに直接フィードすると、画像の読み取り中にエラーが発生し、このエラーのためにトレーニングが停止します。mjsynth データセットの空白の画像のリストを知っている人はいますか。これらの空白の画像をデータセットから削除できるようにします。

0 投票する
1 に答える
78 参照

python - オートエンコーダーで次元を削減した後のデータのクラスタリング

私の目標は、約 10 個のカテゴリおよび/または数値列と 3 つのテキスト記述列を含むデータセット内のクラスターを特定することです。いくつかの調査の後、私は3つのステップのプロセスについて考えました:

  • データの前処理(10 列を正規化し、テキスト データに対して tf-idf を実行 - 形状は (89,000, 41206) のようなものです) いくつかの処理の後、次のように列トランスフォーマーを使用します。

(私も PCA を使用しようとしました:

しかし、結果は実際には関連性がなく、使用できるようには見えませんでした)

  • 私のデータセットの次元を減らすためにオートエンコーダーを構築します。まず、データを 2 つに分割してから、オートエンコーダーを作成します。
  • 従来のクラスタリング ML アルゴリズム(knn、dbscan など)を使用する

だから私は2つの主要な質問があります:

  • これらの情報に基づいて、それが機能するというあなたの信頼度は?
  • オートエンコーダーの作成に問題があります。自分のデータに当てはめてみると…

...エラーがあります:

TypeError: タイプ <class 'tensorflow.python.framework.sparse_tensor.SparseTensor'> のオブジェクトを Tensor に変換できませんでした。内容: SparseTensor(indices=Tensor("DeserializeSparse_1:0", shape=(None, 2), dtype=int64), values=Tensor("DeserializeSparse_1:1", shape=(None,), dtype=float32), dense_shape =Tensor("stack_1:0", shape=(2,), dtype=int64))。サポートされている型に要素をキャストすることを検討してください。

私は自分のエラーについていくつかの調査を行いました.SparseToDense-Layerを作成することを提案することで解決策を提供するこのgitubの件名を見つけました。しかし、このソリューションを自分のコードに適応させるのに苦労しています。

時間を割いて読んでくれた皆さん、前もってありがとう;)

メデリック