私はAIを初めて使用します。機械学習によるテキスト分類のアプリケーションを開発しています。アプリケーションは、HTMLドキュメントのさまざまな部分を分類する必要があります。たとえば、ほとんどのWebページには、ヘッド、メニュー、サイドバー、フッター、メインコンテンツなどがあります。テキスト分類子を使用して、HTMLドキュメントのこれらの部分を分類し、ページ上のさまざまなタイプのフォームを識別したいと思います。
- 誰かがこの主題に関する詳細なガイダンスを提供できれば非常に役に立ちます。
- 同様のアプリケーションの例も非常に役立ちます。
コードと実装に関連する、より技術的な提案を探しています。
クラスやIDなどのHTMLタグ属性にラベルを割り当てることができます
<div class="menu-1">
<div id="entry">
<div id="content">
<div id="footer">
<div id="comment-12">
<div id="comment-title">
最初のアイテムのように:
TrainClassifier(label: "Menu"、value: "menu-1"、attribute: "class"、position-in-string: "21%"、tag: "div");
入力:
- 「menu-1」(属性値)
- リストアイテム
- 「クラス」(属性名)
- 「21」(文字列内のタグ位置)
- 「div」(タグ名)
出力
- 「メニュー」(ラベルとして分類)
上記の入力を受け取り、それらをラベル(つまりメニュー)に分類できるニューラルネットワークライブラリ。
すべてのユーザーが正規表現やxpathを作成することはできません。より簡単なアプローチが必要です。そのため、ソフトウェアをインテリジェントにすることが重要です。ユーザーは、ウェブブラウザコントロールを使用して、必要なhtmlドキュメントの一部を強調表示し、できるまでソフトウェアをトレーニングできます。自力で動作します。
しかし、AIを使用してソフトウェアトレインを作成する方法がわかりません。
私が探しているAIは、さまざまな入力を受け入れ、それに基づいて分類できるはずです。すでにAIについては初めて言ったように、それについてはあまり知りません。
どのライブラリを使用すべきか、実装方法、XpathやRegex、またはplsが答えない他の方法を示唆する答えなど、私が尋ねた質問に対する答えを得ることができれば、私には役立ちます。提案ですが、必要なものです。