問題タブ [training-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
opencv - haar トレーニングの背景サンプル画像はどこで入手できますか?
opencv を使用した haar トレーニング用のサンプル画像 (ネガティブ画像、または背景画像とも呼ばれます) のコレクションが必要です。たくさん持つ必要があると書かれています。5000か10000くらいです。どこで入手できるか知っていますか?
neural-network - パターン認識のトレーニング(ニューラルネットワーク)
パターン認識のためにニューラルネットワークをどのようにトレーニングしますか?たとえば、画像の顔認識では、出力ニューロンをどのように定義しますか?(たとえば、カメラに顔があると言うだけでなく、顔がどこにあるかを正確に検出する方法)。また、複数の顔や異なるサイズの顔を検出するのはどうですか?
誰かが私にポインターを与えることができればそれは本当に素晴らしいでしょう
乾杯!
machine-learning - 公開されているスパムフィルタートレーニングセット
私は機械学習に不慣れで、最初のプロジェクトでは、単純ベイズスパムフィルターを作成したいと思います。ラベル付きのスパム/非スパムメールの公開されているトレーニングセットがあるかどうか疑問に思っていました。できればプレーンテキストで、リレーショナルデータベースのダンプではありません(それらがきれいに印刷されていない限り)。
私は、そのような公に利用可能なデータベースが他の種類のテキスト分類、特にニュース記事のテキストのために存在することを知っています。私はちょうど電子メールのために同じ種類のものを見つけることができませんでした。
ruby-on-rails - ロケーションベースのソーシャルネットワークのレコメンダーシステムのトレーニングデータ
私は現在、RubyonRailsでロケーションベースのソーシャルネットワークを開発しています。レコメンデーションシステムも含めたいです。この推奨事項のアルゴリズムをテストするには、実際の匿名のトレーニングデータが必要です。Netflixプライズのデータを見つけましたが、含まれているのは。
を含むデータを探しています
- ユーザー
- 友情
- 場所または会場
- チェックイン(フォースクエアのように)
誰かがそのようなデータの良い情報源を知っていますか?または、このデータを生成するための実証済みのアルゴリズムですか?または他のアイデア?
text - Twitter主観トレーニングセット
ツイートを主観的または客観的にフィルタリングするには、信頼性が高く正確な方法が必要です。言い換えれば、トレーニングセットを使用してWekaのようなものでフィルターを構築する必要があります。
Twitterメッセージまたは転送可能な他のドメインの主観的/客観的分類子として使用できるトレーニングセットはありますか?
java - データのトレーニングにテキスト全体を必要としないエンティティ認識分類アルゴリズムはありますか?
私が持っているテキスト上のいくつかのエンティティを認識したいのですが、多くのアルゴリズム(NaiveBayes、隠れマルコフモデル、条件付き確率場など)を見つけましたが、ほとんどすべてがエンティティを分類するために膨大なトレーニングデータを必要としているようです。
トレーニングデータにテキストがなくても認識できるアルゴリズムがあるかどうかを知りたいのですが、認識したいデータを表す単語だけか、文字列パターンなどがあります。
私が避けたい唯一のことは、トレーニングデータとして巨大なテキストを持つ必要性です。
nlp - 感情分析のトレーニング データ
企業ドメインのセンチメントがポジティブ/ネガティブに分類されているドキュメントのコーパスはどこで入手できますか? アナリストやメディアが提供する企業のレビューなど、企業のレビューを提供するドキュメントの大規模なコーパスが必要です。
商品や映画のレビューが載っているコーパスを見つけました。企業のレビューを含む、ビジネスの言語に一致するビジネス ドメインのコーパスはありますか。
ocr - TesseractOCRエンジンへのブラックレターフォントサポートの追加
私はリンカーンフォントをTesseractで機能させることに取り組んでおり、非常に複雑なトレーニングプロセスを経た後でも、ひどい結果が得られています。
これはフォントがどのように見えるかなので、ええ、それは少しトリッキーです:
トレーニング画像を注意深く作成し、それを使用してボックスファイルを作成しました。トレーニング画像はこちら(25MB!)です。画像は300DPIで、代表的な文字が垂直方向と水平方向に適切に配置されています。
トレーニング画像用のボックスファイルを作成しましたが、正常に機能しました。ボックスファイルエディタを使用して、それが正しいことを確認しました。
このボックスファイル/tifファイルを取得し、それを使用してトレーニングデータを作成しました。Tesseractから提供された30個ほどの他のサンプル画像/フォントでも同様に行いました。
unicharsetファイルを作成しました。
font_propertiesファイルを作成しました。フラクトゥールをいつ使用すべきかについてのガイダンスはサイトにありません。だから私はそれを両方の方法で試しました(リンカーンのフラクトゥール):
そしてこのように(フラクトゥールオフ):
そして最後に、辞書ファイルがある場合とない場合でこれを試しました。私が辞書ファイルを使用したとき、それらは私の検索エンジンであるSphinxからのワードマップであり、それらには約15Kの一般的な単語と約20Kの一般的でない単語があります。
いずれの場合も、このファイルの最初の数行(3MB)をOCRしようとすると、品質がひどいものになります。取得するのではなく:
私は得る:
なんで?
nlp - 分類された感情データのソース?
以前に使用されたことのないいくつかの新しいデータ ソースを使用して、ナイーブ ベイズをトレーニングしようとしています。IMDB レビューの Lee & Pang コーパスと MPQA オピニオン コーパスは既に見ました。次の条件を満たす新しい Web サービスを探しています。
- 簡単に分類 - 好き嫌いまたは 5 つ星の評価が必要
- すぐに利用できる
- 新しい資料に関するもの (最初の 2 つほど重要ではありません)
ここに私が独自に思いついたいくつかのサンプルがあります。
- Etsy API
- 腐ったトマト API
- Yelp API
他の提案は大歓迎です=)
model - libsvm での回帰: 生成されたモデルに 1 行だけでなく多数の行が含まれる理由
libsvm (回帰問題を解決するためのライブラリ) を使用して、トレーニング セットからモデルを生成しています。
生成されたモデルには多くの行が含まれていますが、生成されたモデル全体を表す行が 1 つだけ含まれていると思います。各行が1つのモデルに対応していると思います。
例: 1 人のユーザーに関するデータをトレーニング セットとして使用する場合、ユーザーに関する 10 行としましょう。生成されたモデルには、このユーザーのモデルを表す 1 つの行があると想定します。しかし、そうではありません。
なんで?または、生成された行の平均をどのように解釈する必要がありますか?