BeautifulSoup を使用して Web サイトをスクレイピングしました。スクレイピングしたすべてのテキストを分析し、そのテキストに含まれる食品の長いリストを作成したいと考えています。
サンプルテキスト
あなたが菜食主義者で、ワンタンが食べられないという事実を永遠に嘆いているなら、これらの人はあなたのためです! 餡は木綿豆腐のクランブルをシンプルに混ぜ合わせ、塩、生姜、白胡椒、ネギで味付け。超簡単ですが満足です。豆腐はよく水気を切り、具材が濡れすぎないようにできるだけ乾かしてください。さらに一歩進んでプレスすることもできます。プレートにペーパータオルを並べ、その上にペーパータオルをいくつか置き、別のプレートで豆腐の重さを量ります。このワンタンのいいところは、餡が完全に火が通っているので、味見だけで味付けを調節できるところ。フィリングは、そのまま食べる場合よりも少し塩味が強いことを確認してください. ワンタンの皮は味付けの邪魔にならない。あなたがしているのはワンタンの皮を調理することだけなので、これらの人は一瞬で調理します. それらを沸騰したお湯に入れ、上に浮かせたら、準備完了です。スパイシーな醤油酢のドレッシングでそれらをトスすると、あなたは天国です!
これから、ワンタン、豆腐、酢、白胡椒、玉ねぎ、塩を特定する長いリストを作成したいと思います。
既存の食品のリストがないと、どうすればこれを行うことができるかわかりません。したがって、どんな提案も素晴らしいでしょう。あまり手動の介入なしにこれを自動的に行うことができるものを探しています! (私は NLP と深層学習にまったく慣れていないので、お勧めの記事や方法はどれも非常に役立ちます!)
ありがとう!