私はやりたいプロジェクトのために何かを考えていました。私は上級ユーザーではなく、ただ学んでいます。これが可能かどうかわからない:
多くの表とその中にテキストを含む 100 個の html ドキュメントがあるとします。
質問 1 は、このすべてのテキストを分析し、繰り返されている単語を見つけて数えることは可能ですか?.
はい、いくつかの関数を使用することは可能ですが、ここに問題があります。検索される単語を知らなかったらどうなるでしょうか? つまり、単語の意味をコードに伝える必要があります。
たとえば、1 つの単語が 7 つの文字の結合であると仮定すると、アイデアは、他の同様のパターンを見つけて言及することです。これを行う最良の方法は何ですか?
事前にどうもありがとうございました。
例:
検索: 次のフレーズの 5 つの文字パターン:
テキスト 1:
「壊れないためには大海が必要だ」
テキスト 2:
「海は塩水です」
結果
Takes 1
Break 1
water 1
Ocean 2
よろしくお願いします。