RSS フィードを PHP で MySQL データベースに解析しています。DB に新しいエントリを挿入する前に、(アイテムのタイトルを比較して) MySQL データベースに同様のエントリが既に存在するかどうかを確認し、それに応じてフラグを立てたいと思います。リストされた例の候補がソースの重複の可能性があることを判断する方法がわかりません。
例:
ソース:
- CES: Panasonic und Technisat neu in der Smart TV Alliance
候補:
- パナソニック、IBM、特定のメディア、ABOX42 および TechniSat ... - エリア DVD
- CES 2013: パナソニック、IBM、特定のメディア、ABOX42 および TechniSat ...
- Panasonic ABOX42 IBM 固有のメディアと TechniSat ExpandBuild 1 回 ...
- Panasonic、IBM、Specific Media、ABOX42 および TechniSat erweitern die ...
- ...
すでに array_intersect と levenshtein() を試しましたが、結果はあまり正確ではありません。もうわからない場合。
ベスト、アンドレアス