7

私はAIを初めて使用します。機械学習によるテキスト分類のアプリケーションを開発しています。アプリケーションは、HTMLドキュメントのさまざまな部分を分類する必要があります。たとえば、ほとんどのWebページには、ヘッド、メニュー、サイドバー、フッター、メインコンテンツなどがあります。テキスト分類子を使用して、HTMLドキュメントのこれらの部分を分類し、ページ上のさまざまなタイプのフォームを識別したいと思います。

  1. 誰かがこの主題に関する詳細なガイダンスを提供できれば非常に役に立ちます。
  2. 同様のアプリケーションの例も非常に役立ちます。

コードと実装に関連する、より技術的な提案を探しています。

クラスやIDなどのHTMLタグ属性にラベルを割り当てることができます

<div class="menu-1">
<div id="entry">
<div id="content">
<div id="footer">
<div id="comment-12">
<div id="comment-title">

最初のアイテムのように:

TrainClassifier(label: "Menu"、value: "menu-1"、attribute: "class"、position-in-string: "21%"、tag: "div");

入力:

  1. 「menu-1」(属性値)
  2. リストアイテム
  3. 「クラス」(属性名)
  4. 「21」(文字列内のタグ位置)
  5. 「div」(タグ名)

出力

  1. 「メニュー」(ラベルとして分類)

上記の入力を受け取り、それらをラベル(つまりメニュー)に分類できるニューラルネットワークライブラリ。

すべてのユーザーが正規表現やxpathを作成することはできません。より簡単なアプローチが必要です。そのため、ソフトウェアをインテリジェントにすることが重要です。ユーザーは、ウェブブラウザコントロールを使用して、必要なhtmlドキュメントの一部を強調表示し、できるまでソフトウェアをトレーニングできます。自力で動作します。

しかし、AIを使用してソフトウェアトレインを作成する方法がわかりません。

私が探しているAIは、さまざまな入力を受け入れ、それに基づいて分類できるはずです。すでにAIについては初めて言ったように、それについてはあまり知りません。

どのライブラリを使用すべきか、実装方法、XpathやRegex、またはplsが答えない他の方法を示唆する答えなど、私が尋ねた質問に対する答えを得ることができれば、私には役立ちます。提案ですが、必要なものです。

4

3 に答える 3

3

最初に、理解しやすい単純なアルゴリズムを調べることをお勧めします。いくつかの指針を示すことができます。

  1. Naive Bayes (多くの実装を見つけることができますが、自分で行うことができます。アルゴリズムは実装が簡単ですが、非常に強力です)。
  2. 最大エントロピー (例: SharpMaxEnt - オープン ソース)。
  3. SVM (例: C# ポート用の LibSVM)。

    これらがどのように機能するかを知りたい場合は、WEKA ツールキットをダウンロードしてください。

    http://sourceforge.net/projects/weka/
    

    通常、一般的に実行される手順は次のとおりです。

    1. できるだけ多くの属性/機能 (および一連のラベル) を特定します。
    2. セット{ラベル、属性1、A2、A3、...}であるデータを収集します
    3. 特徴選択アルゴリズムを使用して重要な属性の最小限のセットを選択します (WEKA ツールキットでも利用可能)
    4. 標準アルゴリズムを使用して分類器をトレーニングする
    5. 必要な精度、リコール、またはその他のパラメータが得られるまで、システムをテストします。

    幸運を!

于 2011-08-24T06:51:24.180 に答える
2

これは非常に幅広いトピックです。C#用のニューラルネットワークライブラリがいくつかあります。StackOverflowで検索してください。

あらゆるタイプの分類を行う前に、教師ありトレーニングを実行する必要があります。ANNが何を投げているのかを理解するには、HTMLを解析して、探している結果を取得する方法を理解する必要があります。

例として、ほとんどのWebサイトはCSSを使用してブラウザーでコンテンツをレンダリングします。他のサイトはテーブルを使用する場合があります。両方のトレーニングが必要になります。

あなたの問題は簡単なものではありません。

于 2011-08-20T02:21:20.190 に答える
0

ラベルを割り当てる必要のあるデータがある場合は、分類が役立ちます。これはそうではありません。ドキュメントを分解するための XPath ルールを手動で記述した方がよいでしょう。

于 2011-08-19T19:42:54.480 に答える