HTMLページ用のWebスクレイパーを実装しています。問題は、取得したコンテンツとDB内の他のコンテンツとの関係を決定する必要があるため、コンテキストの関係です。コンテキストの観点から、それらが関連しているかどうかは「はい」と言えます。
例( 1 )
$str1 = "president obama visited Barcelona yesterday"; //politics context
$str2 = "Barcelona was defeated from Chelsea yesterday"; //sports context
例( 2 )
$str3 = "Obama's appearance on Late Night With Jimmy Fallon "; //media context
$str4 = "Late Night show with jimmy fallon"; //mdeia context
最初の例では
$str1と$str2はコンテキストが異なるため、関係は10%以下になる可能性があります
2番目の例では
$str3と$str4は同じコンテキスト (メディア) にありますが、$str3 はオバマ大統領に関するもので、$str4はジミー ファロンに関するものですが、両方とも深夜番組に関連しているため、関連性は90%である可能性があります。
Porter-Stemmer アルゴリズムを使用して、単語から共通語尾を削除しています。次はどうする?