grep を stopwords-file と一緒に使用して、別のファイルから一般的な英語の単語を除外したいと考えています。ファイル「somefile」には、1 行に 1 単語が含まれています。
cat somefile | grep -v -f stopwords
このアプローチの問題点は次のとおりです。ストップワードの単語が somefile に含まれているかどうかをチェックしますが、反対のファイルが必要です。つまり、somefile の単語がストップワードに含まれているかどうかを確認します。
これを行う方法?
例
somefile には以下が含まれます。
hello
o
orange
ストップワードには次のものが含まれます。
o
こんにちはとオレンジではなく、somefile から「o」という単語だけを除外したいと考えています。