私はいくつかの機械学習を学ぼうとしていますが、残念ながら教師なし学習は私をうまく扱っていません.StackOverflowの好意による半教師あり学習が私を助けてくれるかもしれないと思っていました! :)
生の HTML から Web ページのトピックをできるだけ簡単に抽出しようとしています。私が持っているのは、10,000 個の HTML ファイルのリストです。このリストで、WebページのID(ファイル名)とWebページのトピックをTSV形式で出力するプログラムを実行したいと思います。
これを行うための多くの API を調べ、python と scikit-learn を使用して独自の関数を実装しようとしましたが、見落としている簡単で効果的な方法があると確信しています。
私が持っているもの:
Folder containing over 10,000.html files, labelled from 1 to 10,000.
私が欲しいもの
実行するプログラム:
foreach(file in folder){
//Analyse HTML in file
//Predict topic from HTML (I believe this is called Latent Semantic Analysis).
//Write to next line of TSV "file\ttopic"
}
したがって、最終的には次の形式の tsv になります
1 Recipe
2 Football
3 Technology
...
10,000 Television