0

私はこれがロングショットであることを知っていますが、とにかく尋ねます。

一部のテキストに対してフィルターを適用し、「The」、「a」、「and」、「or」など、英語で最も頻繁に出現する単語を削除したいと考えています...

そのような単語のかなり良いリストを取得できるように、この課題はどこかで解決されましたか?

4

3 に答える 3

1

あなたが探しているものの正式な用語は「ストップワード」です。英語については、Solr 検索エンジンの stopwords.txt リストをよく使用します。

https://code.google.com/p/solrmarc/source/browse/trunk/test/data/smoketest/solr/conf/stopwords.txt?r=1333

于 2012-05-28T01:44:01.043 に答える
0

str_replace() を使用します

例:

str_replace("and", "", $text);
于 2012-05-28T01:39:44.167 に答える
0

正規表現はどうですか?このページhttp://www.roscripts.com/PHP_regular_expressions_examples-136.htmlの「単語」セクションを確認してください。単語を操作するパターンを含む正規表現のサンプルがあります。

//Words: Whole word
//Match one of the words from the list
'\b(?:word1|word2|word3)\b'
于 2012-05-28T01:22:22.330 に答える