問題タブ [classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 確率とニューラルネットワーク
確率を推定するために、ニューラルネットワークでシグモイドまたはタン出力層を直接使用することは良い習慣ですか?
つまり、与えられた入力が発生する確率は、NNのシグモイド関数の出力です。
編集
ニューラルネットワークを使用して、特定の入力が発生する確率を学習および予測したかったのです。入力をState1-Action-State2タプルと見なすことができます。したがって、NNの出力は、State1にアクションを適用するときにState2が発生する確率です。
私はそれが明確なことをすることを願っています。
編集
NNをトレーニングするとき、私はState1に対してランダムなアクションを実行し、結果のState2を観察します。次に、入力State1-Action-State2が出力1.0になることをNNに教えます。
java - Java テキスト分類の問題
私はBooksオブジェクトのセットを持っています.Bookクラスは次のように定義されています:
titleは本のタイトルです。例: Javascript for dummies。
taglistは、この例のタグのリストです: Javascript、jquery、「web dev」、..
私が言ったように、IT、生物学、歴史など、さまざまなことについて話している本のセットがあります...各本には、タイトルとそれを説明するタグのセットがあります..
これらの本を、トピックごとに別のセットに自動的に分類する必要があります。例:
ITブックス:
- ダミーのための Java
- ダミー用 Javascript
- 30日でフラッシュを学ぶ
- C++ プログラミング
歴史書:
- 世界大戦
- 1960年のアメリカ
- マーティン・ルーサー・キングの生涯
生物学の本:
- ....
そのような問題に適用する分類アルゴリズム/方法を知っていますか?
解決策は、外部 API を使用してテキストのカテゴリを定義することですが、ここでの問題は、書籍の言語がフランス語、スペイン語、英語など異なることです。
code-generation - 文字列からの機械学習とコードジェネレーター
問題: 手動で分類された文字列のセット (または文字列の順序付けられたベクトルのセット) が与えられると、より多くの入力を分類するための categorize 関数が生成されます。私の場合、そのデータ (またはそのほとんど) は自然言語ではありません。
質問: それを行うツールはありますか? ライブラリや脆弱なアカデミック プログラムとは対照的に、合理的に洗練された、ダウンロード、インストール、実行できるようなものを考えています。
(実際の詳細は、あまり一般的ではない回答への回答を制限し、NDA の下にあるため、詳細にこだわらないでください。)
私が見ているものの例として; フィルタリングしたい入力は、ログから取得したコンピューター生成のステータス文字列です。エラー メッセージ (例) は、誰に通知する必要があるか、またはどのようなアクションを実行する必要があるかに基づいてフィルター処理されます。
nlp - サンプルデータまたはWebサービスを使用した文のNLTKpythonによる感情分析?
私は感情分析のためのNLPプロジェクトに着手しています。
私はPython用のNLTKを正常にインストールしました(これには素晴らしいソフトウェアのようです)。しかし、それを使用して自分のタスクを実行する方法を理解するのに苦労しています。
これが私の仕事です:
- 私は1つの長いデータから始めます(彼らのWebサービスからの英国の選挙の主題に関する数百のツイートを言うことができます)
- これを文(または100文字以下の情報)に分割したいと思います(Pythonでこれを実行できると思いますか??)
- 次に、すべての文を検索して、その文内の特定のインスタンスを検索します(例:「デービッドキャメロン」)。
- 次に、各文のポジティブ/ネガティブな感情をチェックし、それに応じてそれらを数えたいと思います
注意:私のデータセットは大きく、皮肉についてもあまり心配していないので、精度についてはあまり心配していません。
これが私が抱えている問題です:
私が見つけることができるすべてのデータセット。たとえば、Webサービス形式のNLTKアレントに付属するコーパス映画レビューデータ。これはすでにいくつかの処理が行われているようです。私が見る限り、(スタンフォードによる)処理はWEKAで行われました。NLTKがこれをすべて自分で行うことはできませんか?ここでは、すべてのデータセットがすでに正/負に編成されています。たとえば、極性データセットhttp://www.cs.cornell.edu/People/pabo/movie-review-data/これはどのように行われますか?(感情ごとに文章を整理するために、それは間違いなくWEKAですか?それとも何か他のものですか?)
なぜWEKAとNLTKが一緒に使われるのか理解できません。彼らはほとんど同じことをしているようです。感情を見つけるために最初にWEKAでデータを処理している場合、なぜNLTKが必要になるのでしょうか。これが必要な理由を説明することは可能ですか?
このタスクにいくらか近いスクリプトをいくつか見つけましたが、すべて同じ前処理されたデータを使用しています。リンクにあるデータサンプルを使用するのではなく、このデータを自分で処理して文の感情を見つけることはできませんか?
どんな助けでも大歓迎です、そして私に多くの髪を救うでしょう!
乾杯ケ
machine-learning - Bag of words 分類
単語のトレーニング単語とその分類を見つける必要があります。などの簡単な分類。スポーツエンターテイメントと政治のようなもの。
単語とその分類はどこにありますか。多くの大学が Bag of words の分類を行っていることは知っています。トレーニング例のリポジトリはありますか?
random - キャプチャされたデータを不明な形式で分類しますか?
キャプチャされたデータの大規模なセット(場合によっては数十万のレコード)があり、それを分類して「典型的な」データを自分で作成できるように、それを分解できる必要があります。さらに説明させてください...
次のデータ文字列がある場合:
あなたは次のことを推測し始めるかもしれません:
- おそらくすべての文字列は14文字の長さです
- 4番目、8番目、10番目、および14番目の文字は常にアルファであり、残りは数字です。
- 最初の文字は常に「1」である可能性があります
- 4番目の文字は常に文字「T」である可能性があります
- 14番目の文字は「S」または「T」のみに制限される場合があります
- 等々...
実際のデータのサンプルをどんどん取得すると、これらの「ルール」の一部が消える可能性があります。15文字の長さの文字列が表示された場合は、最初の「ルール」が正しくないという証拠があります。ただし、正確に14文字の長さの文字列のサンプルが十分に大きい場合は、「すべての文字列は14文字の長さである」と想定し、自信の程度に数値を割り当てることができます(事実に関する適切な一連の想定を使用して)キャプチャされた可能性のあるすべてのデータの適切にランダムなセットが表示されていること)。
おそらくお分かりのように、人間はこの分類の多くを目で行うことができますが、私はコンピューターがそれを行うことを可能にするライブラリーやアルゴリズムを知りません。
キャプチャされたデータのセット(上記よりも大幅に複雑です...)を考えると、この種の分類を行うためにコードに適用できるライブラリがありますか?これにより、一定の信頼度で「ルール」が識別されますか?
次のステップとして、これらのルールを取得し、それらを使用して、これらのルールに準拠する独自のデータを作成できるようにする必要があります。これは分類よりもはるかに簡単な手順だと思いますが、これまでこのようなタスクを実行する必要がなかったので、どれほど複雑かはわかりません。
推測では、PythonまたはJava(またはPerlまたはR)は、おそらくこれらの種類のライブラリを持っている可能性が最も高い「一般的な」言語であり、おそらく一部の生物情報ライブラリはこの種のことを行います。どの言語を使用する必要があるかは本当に気にしません。私はできる限りの方法で問題を解決する必要があります。
情報へのあらゆる種類のポインタが非常に役立ちます。おそらくお分かりのように、私はこの問題を明確に説明するのに苦労しています。Googleにプラグインできる適切なキーワードのセットがあり、それが解決策を示している可能性があります。
mysql - 文字列分類戦略
私は、新しい軍事史のWebサイトの1人の開発チームです。このサイトの1つの側面は、参加した国とフォーメーション(連隊、師団など)を含む、約1,200の個別の戦闘のカタログです。
フォーメーション情報(およびその他の戦闘情報)は、10人のボランティアチームによって一連の本から手動でインポートされました。フォーメーションは、さまざまなフォーマットと略語パターンでグループにリストされました。データ収集フォームを設定したとき、そのデータを処理する良い方法を考えることができませんでした...そして、すべてを文字列としてMySQLデータベースに保存し、後で分類することを選択しました。
さて、「後で」-それが起こりがちなように-が到着しました。:-)
各戦闘には、データベースに2つ以上のレコードがあります。参加した国ごとに1つです。各レコードには、ボランティアがフォーメーションを追加することを選択したときに存在するフォーメーションをリストしたフォーメーションテキスト文字列があります。
いくつかの実際の例:
- 第39擲弾兵師団、第26歩兵師団
- 第246歩兵師団第2Luftwaffeフィールド師団
- 第247ライフル師団、第255戦車旅団
- SS騎兵師団第2空軍野戦師団
- 第28戦車旅団、第158ライフル師団、第135ライフル師団、第81戦車旅団、第242戦車旅団
- 第78歩兵師団
- 第3呉特別陸戦隊、ツラギ水上飛行場要員
- 第1大隊第505歩兵連隊
最終的な目標は、個々の部隊がIDを持ち、戦闘データベース全体でその参加を追跡できるようにすることです。上記の最後の項目などのフォーメーション階層1st Battalion (of the) 505th Infantry Regiment
も保持する必要があります。その場合、1st Battalion
は505th Infantry Regiment
分割さ1st Battalion
れますが、に属するものとしてフラグが立てられます505th.
データベースの用語では、現在の戦闘情報テーブルからフォーメーションフィールドを引き出し、3つの新しいテーブルを作成したいと思います。
説明するのは簡単ですが、制定するのは複雑です。
私がSOコミュニティに求めているのは、この問題に取り組むための最善の方法に関するヒントです。理想的には、これを解決するためのある種の方法がありますが、私は気づいていません。ただし、最後の手段として、いつでも分類フレームワークをコーディングし、ボランティアに電話をかけて2,500以上のレコードを並べ替えることができました...
classification - weka分類をどう解釈するか?
単純ベイズを使用して、weka の分類結果をどのように解釈できますか?
平均値、標準偏差、重量合計、精度はどのように計算されますか?
カッパ統計、平均絶対誤差、二乗平均平方根誤差などはどのように計算されますか?
混同行列の解釈は何ですか?
machine-learning - 単純ベイズ分類器の結果をwekaで解釈する方法は?
単純ベイズを使用した分類のためにwekaで生成された次の結果を解釈するのを手伝ってください。
何であるかを明確に説明してください
- 正規分布
- 平均
- StandardDev
- WeightSum
- 精度。
私を助けてください。私はwekaが初めてです。
**単純ベイズ分類器
machine-learning - データ分類のための機械学習アルゴリズム。
次の問題を解決するためにどの手法/アルゴリズムを調査する必要があるかについてのガイダンスを探しています。現在、音響フィンガープリンティングを使用して、似たようなサウンドの mp3 をクラスター化するアルゴリズムを取得しています。各クラスターには、各ファイルのすべての異なるメタデータ (曲/アーティスト/アルバム) があります。そのクラスタについて、データベース内の既存の行に一致する「最適な」曲/アーティスト/アルバム メタデータを選択するか、最適な一致がない場合は、新しい行を挿入することを決定します。
クラスターの場合、通常、いくつかの正しいメタデータがありますが、個々のファイルにはさまざまな種類の問題があります。
- アーティスト/曲の名前が完全に間違っているか、わずかにスペルが間違っている
- アーティスト/曲/アルバムはありませんが、残りの情報はあります
- この曲は実際にはライブ録音ですが、クラスター内の一部のファイルのみがそのようにラベル付けされています。
- メタデータがほとんどない場合があり、場合によってはファイル名だけで、アーティスト - song.mp3、またはアーティスト - アルバム - song.mp3、または別のバリエーションの可能性があります。
単純な投票アルゴリズムはかなりうまく機能しますが、現在持っているものよりも多くのニュアンスを拾う可能性のある大量のデータセットでトレーニングできるものが欲しいです. 論文または同様のプロジェクトへのリンクは大歓迎です。
ありがとう!