私はこれがロングショットであることを知っていますが、とにかく尋ねます。
一部のテキストに対してフィルターを適用し、「The」、「a」、「and」、「or」など、英語で最も頻繁に出現する単語を削除したいと考えています...
そのような単語のかなり良いリストを取得できるように、この課題はどこかで解決されましたか?
私はこれがロングショットであることを知っていますが、とにかく尋ねます。
一部のテキストに対してフィルターを適用し、「The」、「a」、「and」、「or」など、英語で最も頻繁に出現する単語を削除したいと考えています...
そのような単語のかなり良いリストを取得できるように、この課題はどこかで解決されましたか?
あなたが探しているものの正式な用語は「ストップワード」です。英語については、Solr 検索エンジンの stopwords.txt リストをよく使用します。
str_replace() を使用します
例:
str_replace("and", "", $text);
正規表現はどうですか?このページhttp://www.roscripts.com/PHP_regular_expressions_examples-136.htmlの「単語」セクションを確認してください。単語を操作するパターンを含む正規表現のサンプルがあります。
//Words: Whole word
//Match one of the words from the list
'\b(?:word1|word2|word3)\b'