フレーズのかなり複雑なマッチングを行う必要があります。それぞれ 1000 ワードを超える大量のテキストがファイルに含まれています。
私が探しているフレーズ(検索フレーズ)は次のようなものです。
投資とは、以下を意味するものではありません。1. 相手方の領域内の企業の当事者の国民または企業による商品またはサービスの販売に関する商業契約、または 2.以前にカバーされたローンまたは金銭に対する請求以外の貿易金融などの商取引。
私が持っている各ファイルにフレーズが含まれているかどうかを知りたいです。ただし、ファイルには、フレーズの正確なレプリカであるコンテンツは含まれません。代わりに、ファイル (テキストファイル) は、次のような段落を含む大きなドキュメントになります。
ただし、投資とは、一方の締約国の領域内の国民または法人による、他方の締約国の領域内の国民または法人への商品またはサービスの販売のみを目的として設計された商取引のみから得られる金銭に対する請求を意味するものではありません。貿易金融などの商取引の資金調達のためのクレジット、期間が 3 年未満のその他のクレジット、および国または国営企業に付与されたクレジット。
ご覧のとおり、検索フレーズは、テキストファイルのこの段落と実際の意味でかなり似ています。キーワードにもかなりの重複があります。したがって、私は一致する必要があります。
これをコーディングするには、どのようなアルゴリズムを試して使用する必要がありますか? この仕事をする事前にコード化されたモジュールはどこでも利用できますか?