自然言語ツールキット(NLTK)をいじっています。
そのドキュメント ( BookおよびHOWTO ) は非常に分厚く、例は少し高度な場合があります。
NLTK の使用/アプリケーションの良いが基本的な例はありますか? Stream HackerブログのNTLK 記事のようなものを考えています。
一般に NLP は非常に便利なので、検索範囲をテキスト分析の一般的なアプリケーションに広げたいと思うかもしれません。私は NLTK を使用して MOSS 2010 を支援し、コンセプト マップを抽出してファイル分類法を生成しました。本当にうまくいきました。ファイルが有用な方法でクラスタ化を開始するまで、それほど時間はかかりません。
多くの場合、テキスト分析を理解するには、自分が慣れ親しんでいる考え方に沿って考える必要があります。たとえば、テキスト分析は発見に非常に役立ちます。しかし、ほとんどの人は検索と発見の違いを知りません。これらの主題を読めば、NLTK を機能させる方法を「発見」する可能性があります。
また、NLTK を使用しないテキスト ファイルの世界観も考慮してください。空白と句読点で区切られたランダムな長さの文字列がたくさんあります。一部の句読点は、ピリオドなどの使用方法を変更します (これは、省略形の小数点および後置マーカーでもあります)。これで、コンテンツのハンドルができました。NLTK を使用して、ドキュメント内の概念とアクションを発見します。ドキュメントの「意味」を理解するには、NLTK を使用します。この場合の意味は、ドキュメント内の本質的な関係を指します。
NLTK に興味を持つのは良いことです。テキスト分析は、今後数年間で大々的にブレイクアウトする予定です。それを理解している人は、新しい機会をよりうまく活用するのに適しています。
私はstreamhacker.comの作成者です(言及してくれてありがとう、この特定の質問からかなりの量のクリック トラフィックが得られます)。具体的に何をしようとしていますか?NLTK にはさまざまなことを行うためのツールがたくさんありますが、ツールを何に使用し、どのように使用するのが最適かについての明確な情報がやや不足しています。また、学術的な問題を対象としているため、教育上の例を実用的な解決策に翻訳するのは大変です。