インスピレーションが必要です。趣味のプロジェクトで、コンテンツ分析で遊んでいます。基本的に、入力を分析してトピックマップに一致させようとしています。
例えば:
- 「イラクの道」 > 歴史、中東
- 「ハルムニ」 > 食べ物, 中東
- "BMW" > ドイツ、車
- "オバマ" > アメリカ
- "Impala" > アメリカ、車
- 「ベルリンの壁」 > 歴史、ドイツ
- "ブラートヴルスト" > 食べ物, ドイツ
- "チーズバーガー" > 食べ物, アメリカ
- ...
私は分類学について多くのことを読んできましたが、最終的に読んだものはすべて、すべての人が異なる方法でタグ付けを行っているため、システムは失敗するにちがいないと結論付けています。
トークン化された入力とストップ ワード リストについて考えましたが、それらを考え出して構築するのはもちろん大変な作業です。単語とトピックの間に関連性のあるリンクを構築することは、疲れ果てているように思えます。また、扱う言語が何であれ、それは非常に豊かであり、ほとんどの言語は文脈に大きく依存しています。メンテどころか。
何かスマートなものを考え出し、それを推測できるようにしたいトピックでトレーニングする必要があると思います。Eliza botのようなものです。
とにかく、すぐに使えるものがあるとは思いませんが、意味を抽出するために入力を分析するためにテクノロジーを使用するためのリードや例はありますか?