1

テキスト ファイルで wordnet のコロケーションを見つける必要があります。そのような文字列/コロケーションのリストが保存されています.今、私のテキストファイル(コーパスから)に、これらの文字列のいずれかが発生するかどうかを識別する必要があります. 問題は、POSタガーを使用しているため、複数単語のコロケーションが別々の単語と見なされるため、最初にコロケーションリストからコロケーションを取得し、それがテキストに含まれているかどうかを確認してから、コロケーションのスペースを次のような特殊文字に置き換える必要があることです_ したがって、pos tagger はそれを 1 つと見なします。リスト内のすべてのコロケーションのテキスト ファイルの内容に対して preg_replace を試しましたが、ブラウザがクラッシュするか、メモリ過負荷エラーが表示されます

$m=file_get_contents ('sample.txt');
$comp=file('collocation_list.txt');
for ($x=0; $x<= count($comp); $x++)
{
       $comp[$x] = trim(strtolower($comp[$x]));
   $c =$comp[$x];
   $rep=str_replace(" ","_",$c);
   $rep=" ".$rep." "; 
   $m =preg_replace($c,$rep,$m);   

}
4

0 に答える 0