まず、次のようなことを可能にする利用可能なオープンソース ML フレームワークを使用するために十分に理解できるように、十分な機械学習を独学で学びたいと考えています。
特定のサイトのページの HTML ソースを調べて、どのセクションがコンテンツを形成し、どの広告がどのセクションを構成し、どのセクションがメタデータを形成するかを「理解」します (コンテンツでも広告でもない - 例えば - TOC、著者の略歴など)。
異なるサイトのページの HTML ソースを調べて、そのサイトが定義済みのカテゴリに属しているかどうかを「分類」します (カテゴリのリストは事前に提供されます)1。
... テキストとページでの同様の分類タスク。
ご覧のとおり、私の差し迫った要件は、異種のデータ ソースと大量のデータを分類することです。
私の限られた理解によると、ニューラル ネット アプローチを採用すると、SVM を使用するよりも多くのトレーニングとメンテナンスが必要になりますか?
SVM は私のような (バイナリ) 分類タスクに適していることを理解しており、libSVM のようなオープン ソース フレームワークはかなり成熟していますか?
その場合、コンピュータ サイエンスの卒業生は、これらのフレームワークを使用して上記の要件を解決できるように、現在どのような科目やトピックを学ぶ必要があるのでしょうか?
私はJavaから離れたいと思っています。それは可能です。それ以外の言語の好みはありません。私はできる限り多くの努力をして学びたいと思っています。
私の意図は、コードをゼロから書くことではありませんが、さまざまなフレームワークを使用できるようにすることから始めて (どれを決定するのに十分なのかわかりません)、問題が発生した場合に問題を修正できるようにする必要があります。
統計学と確率論の特定の部分を学ぶ上でのあなたからのアドバイスは、私の側からは予想外のものではないので、必要に応じて言ってください!
すべての提案とフィードバックに応じて、必要に応じてこの質問を変更します。