nltk - テキスト文書からの技術キーワードの抽出

Question

書き直し：

コンピューターサイエンス関連のドキュメントのコーパスがあります。ドメイン固有のキーワードを抽出したい。たとえば、JAVA、C#、HTML、OOP、UML、Unity などです。コンピューティング用のオックスフォード辞書に似たソースを探していましたが、それらの API はまだ稼働していません。コンピューターサイエンス用語の Webopedia も試してみましたが、これは包括的で更新されていません (たとえば、私の文書には F# などの単語が含まれていません)。または、Wikipedia の場合、すべての用語がまとめてリストされていません。これらのキーワードを抽出するためのより包括的なソースまたは適切なアプローチはありますか? 私は NLTK で Python を使用しています。たとえば、tf-idf は役に立ちませんでした。一部のドメイン固有の単語はほとんどすべてのドキュメントで共通しているため、それらの単語は高い評価を得られないからです。POS タグを使用できれば役立つと思いますが、どのオプションが自分のアプリケーションに最適なのかわかりません。以下の文字列を例にとります。

「JavaScript、JSON、AJAX のエキスパートレベルの機能と、JQuery などの JavaScript フレームワークに関する深い知識」ここで、次の単語を抽出したいと思います : ['JavaScript'、'JSON'、'AJAX'、'Frameworks'、'JQuery '] しかし、NLTK の POS タグを使用して名詞を検索すると、「レベル」、「能力」、「知識」なども得られます。ご協力いただきありがとうございます。

score 7 · Accepted Answer

StackOverflow のデータダンプをダウンロードして、タグをフィルター処理するプログラムを作成してみませんか?

それらはarchive.orgでリリースされたばかりです。こちらを参照してください

もちろん、すべての用語が含まれているわけではなく、いくつかの誤検知があるでしょうが、これはあなたが得られる限り近いものであると思います.

nltk - テキスト文書からの技術キーワードの抽出

1 に答える 1

Related

Reference