私は機械学習が初めてで、ナレッジグラフを実装して検索目的で使用しようとしています (Google や Bing と同じように)。これが私のアプローチです。私はいくつかのテキスト文書を持っています。私はパイソンに精通しています。
手順:
- テキスト ドキュメントからトリプルを抽出します。これにはStanford OpenIEを使用することを考えています。(pythonで利用できるより良いライブラリはありますか?)。
トリプルを抽出して csv にロードすると、データは次のようになります。
Subject relation predicate
New Delhi IS_CAPITAL India
India Gate IS_LOCATED New Delhi
India HAS_STATES 29
Hyderabad IS_CAPITAL Telangana
Charminar IS_LOCATED Telangana
2. データセットを Python にインポートし、TransH、TransE、ComplExなどの任意のモデルに従ってトレーニングします。 3. 次に、Tensorflow および Ampligraph ライブラリ ( Ampligraph Example ) を使用してトレーニングします。
埋め込みモデルを取得したら、それを使用して検索クエリに回答するにはどうすればよいですか? モデルをデータベースに保存するにはどうすればよいですか? また、この目的にはどのデータベースを使用すればよいですか?
ありがとうございました。
Ps。「Ampligraph Example」のリンクにアクセスして、トレーニング後にどのようなモデルが生成されるかを確認できます。