多くの Web 開発のノウハウに関しては、私は確かに "n00b" ですので、ご容赦ください。
私はウェブサイトのアイデアを持っています.そのアイデアの一部には、特定のウェブページをスキャンし、そのページの「プロファイル」を構築するために、頻度ごとに(コンテキストを考慮して)「キーワード」のランク付けされたテーブルを構築することが含まれます.
私の質問は 2 つあります。
A) この目的に最適なプログラミング言語はどれですか (高速で、特に大量のデータを処理するのに適しています)。
B) 他のページ/テーブルとの分析/比較を迅速かつ効率的に行うために、これらの頻度テーブルを作成するには、どのような種類のデータ構造を使用する必要がありますか? また、テーブルをすばやくざっと見て関連性を判断できるようにするには、テーブル自体をどのように保存すればよいでしょうか? 基本的に、特定のヒューリスティックと特定のコンテンツに基づいて検索エンジンを作成したいと考えています。
このアイデアは今のところ私よりも大きいですが、私はそれに取り組みたいと思っています。