1

HTMLページ用のWebスクレイパーを実装しています。問題は、取得したコンテンツとDB内の他のコンテンツとの関係を決定する必要があるため、コンテキストの関係です。コンテキストの観点から、それらが関連しているかどうかは「はい」と言えます。

例( 1 )

$str1 = "president obama visited Barcelona yesterday"; //politics context
$str2 = "Barcelona was defeated from Chelsea yesterday"; //sports context

例( 2 )

$str3 = "Obama's appearance on Late Night With Jimmy Fallon "; //media context
$str4 = "Late Night show with jimmy fallon"; //mdeia context

最初の例では

$str1$str2はコンテキストが異なるため、関係は10%以下になる可能性があります

2番目の例では

$str3$str4は同じコンテキスト (メディア) にありますが、$str3 はオバマ大統領に関するもので、$str4はジミー ファロンに関するものですが、両方とも深夜番組に関連しているため、関連性は90%である可能性があります。

Porter-Stemmer アルゴリズムを使用して、単語から共通語尾を削除しています。次はどうする?

4

2 に答える 2

1

キーワードは、文字列メトリック、あいまい一致です...

これを見てください:マッチを打つ方法

于 2012-04-28T02:09:23.853 に答える
0
$exstr1=explode(" ", $str1);
$exstr2=explode(" ", $str2);
foreach( $exstr1 as $exitem)
{
     if (in_array($exitem, $exstr2 ) $match++;
      else $mis++;
}
$percent=$match/($match+$mis)*100;
于 2014-10-10T12:21:09.713 に答える