自然言語処理のためのSmalltalkでのtf-idfアルゴリズムの簡単な実装または使用例を誰かが示すことができますか?NaturalSmalltalkというパッケージで実装を見つけましたが、それは私のニーズには複雑すぎるようです。Pythonでの簡単な実装は、次のようなものです。
Hapaxに別のtf-idfがあることに気づきましたが、それはソフトウェアシステムの語彙の分析に関連しているようで、その使用方法の例は見つかりませんでした。
TextLintは、 PetitParserに基づいて、自然言語でパターンを解析および照合するシステムです。それはあなたが求めるものを提供しませんが、単語の頻度を計算するためにモデルを拡張することはそれほど難しくないはずです。
私はVisualworks用のオリジナルのHapaxパッケージの作者です。Hapaxは汎用の情報検索パッケージであり、あらゆる種類のテキストファイルを処理できる必要があります。私はたまたまそれを使ってソースコードファイルを分析していたのです。
探しているクラスはですTermDocumentMatrix
。2つのメソッドがglobalWeighting:
あり、必要に応じて、localWeighting:
のインスタンスを渡す必要があります。通常、tfidfを指す場合、人々は対数項の頻度を含むことを意味します。InverseDocumentFrequency
LogTermFrequency
TermFrequency
小さなサンプルコーパスを使用してTDMクラスを示す最良のテストがあるはずです。テストがSqueakに移植されていない場合は、例を提供できるようにお知らせください。