1

データマイニングについて学んでいます。私の夢は、小さなテキスト (数文) を受け取り、テキストのフレーズとデータベースの最も関連性の高いタグを含む辞書を提供するシステムを開発することです。例えば、

入力 (NYTimes の Web サイトから): "ロサンゼルス - ウォルト・ディズニー・カンパニーは、子供の肥満における娯楽の役割に関する懸念に対処するために、すべての製品が子供に焦点を当てたテレビチャンネル、ラジオ局、および Web で宣伝されたことを火曜日に発表する予定です。サイトは厳格な新しい一連の栄養基準に準拠する必要があります。」

出力:

"LOS ANGELES" : [USA, California, Los_Angeles, city], 
"The Walt Disney Company": [Walt_Disney, Corporation, USA, movies, entertainment], 
"childhood obesity" : [childhood, illness, health],
"all products advertised": [product, advertisement,
"television channel": [TV, broadcast, advertisement],
"radio station": [Radio, broadcast, advertisement],
"web sites": [Web, broadcast, advertisement]

英語とスペイン語のウィキペディアのダンプをダウンロードしました。これまでのところ、python、lxml、および nltk を使用して、すべてのタイトルとタイトルから単語を抽出することができました。現在、ダンプ内の記事間のリンク ネットワーク、外部サイトへのリンクなどを見つけるプログラムを開発しています。また、インフォボックスの抽出についても考えています。また、今週 github で Python コードを公開する予定です。今、私はコメントしてテストしています。

どんなアドバイスをくれますか? この提案は実現可能だと思いますか。

4

1 に答える 1

3

生のウィキペディアのダンプを手動で処理するのではなく、DBpediaをチェックアウトすることをお勧めします。DBpedia はウィキペディアを収集し、関係を簡単にクエリできるように構造化します。

Semantic MediaWikiFreebaseなど、ウィキペディアをスクレイピングする他のプロジェクトもあります。WordNetも有用な情報源になる可能性があります。さまざまな単語間の関係を示した辞書・シソーラスです。

于 2012-06-06T14:11:16.153 に答える