code-generation - 文字列からの機械学習とコードジェネレーター

Question

問題: 手動で分類された文字列のセット (または文字列の順序付けられたベクトルのセット) が与えられると、より多くの入力を分類するための categorize 関数が生成されます。私の場合、そのデータ (またはそのほとんど) は自然言語ではありません。

質問: それを行うツールはありますか? ライブラリや脆弱なアカデミックプログラムとは対照的に、合理的に洗練された、ダウンロード、インストール、実行できるようなものを考えています。

(実際の詳細は、あまり一般的ではない回答への回答を制限し、NDA の下にあるため、詳細にこだわらないでください。)

私が見ているものの例として; フィルタリングしたい入力は、ログから取得したコンピューター生成のステータス文字列です。エラーメッセージ (例) は、誰に通知する必要があるか、またはどのようなアクションを実行する必要があるかに基づいてフィルター処理されます。

score 3 · Accepted Answer

手作業で行う

エラーメッセージが自動的に生成され、メッセージの背後にある例外のリストがそれほど大きくない場合は、各エラーメッセージの種類を通知が必要な人に直接マップするテーブルが必要になる場合があります。

これにより、誰/どのグループがどのタイプのメッセージを受け取るかを正確に追跡し、一部のメッセージが誤って送信されていると判断した場合にメッセージのルーティングを更新することが容易になります。

通常、エラーの種類のごく一部が、エラーレポートの大部分を占めています。たとえば、Microsoft は、クラッシュの 80% がソフトウェアのバグの 20% によって引き起こされていることに気付きました。したがって、役に立つものを得るために、すべてのタイプのエラーメッセージを網羅した完全な表から始める必要さえありません。代わりに、最も一般的なエラーを適切な担当者にマッピングし、それ以外のすべてのエラーを手動でルーティングする担当者にルーティングするだけのリストから始めることができます。エラーが手動でルーティングされるたびに、ルーティングテーブルにエントリを追加して、そのタイプのエラーが今後自動的に処理されるようにすることができます。

ドキュメントの分類

エラーメッセージが送信者によって編集されていて、ルーティング時にこの情報を使用したい場合を除き、これを文書分類タスクとして扱うことはお勧めしません。ただし、これがやりたい場合は、プログラミング言語ごとに整理されたドキュメントドキュメント分類用の適切なパッケージのリストを次に示します。

Python - Python ベースの自然言語ツールキット (NLTK)を使用してこれを行うには、無料で入手できるNLTK ブックの ドキュメント分類セクションを参照してください。

Ruby - Ruby の方が好みなら、 Classifier gemを使用できます。これは、Family Guy の引用が面白いかどうかを検出するサンプルコードです。

C# - C# プログラマーはnBayesを使用できます。プロジェクトのホームページには、単純なスパム/非スパム分類器のサンプルコードがあります。

Java -Java関係者には、 Classifier4J、Weka、Lucene Mahout、および adi92 が言及したMalletがあります。

Weka を使用したルールの学習- ルールが必要な場合は、ルールセットベースの学習者が含まれているため、Weka は特に興味深いものになる可能性があります。Weka を使用したテキストの分類に関するチュートリアルは、こちらにあります。

score 1 · Accepted Answer

Malletには、コマンドラインから完全にトレーニングおよび展開できる分類器がたくさんあります.
Wekaも素晴らしいです.

score 0 · Accepted Answer

スパムまたはメールフィルタを試しましたか? 適切なカテゴリでマークされたテキストファイルを使用することで、テキスト入力をさらに分類できるはずです。いずれにせよ、それはそれらのプログラムが行うことですが、出力に「スパム」および「スパムではない」というラベルを付ける代わりに、他のカテゴリを行うことができます。

独自のロールを作成するためのより実践的なアプローチとして、AdaBoost を含む何かを試すこともできます。 Google のこのライブラリは有望に見えますが、すぐにデプロイできる要件を満たしていない可能性があります。

code-generation - 文字列からの機械学習とコードジェネレーター

3 に答える 3

Related

Reference