0

特定の Web サイト (巨大な Web サイト) に接続し、ユーザーから単語を取得し、サイトを検索して単語を含む文字列を返す単語検索を作成したいと考えています。これは Java でアプレットとして作成する必要があります。これに関するいくつかのチュートリアルと質問を読んで、何をしなければならないかを理解しました:

1.ウェブサイトに接続し、ウェブサイトのコンテンツを取得して文字列に保存します(これは、ウェブサイトに接続するための独自のコードから作成され、コンテンツを文字列+ jsoupライブラリに保存するWebクローラーで行う必要がありますhtml コードを解析します)。

2.データをデータベースに保存します(私の場合はnosqlデータベース)。

3.データベース内のデータにインデックスを付けます。

4.データベースにクエリを実行して結果を表示します。

5.検索結果を表示するためのUIを作成します(swing.jappletを使用)。

今私の質問は次のとおりです。

1.私が行かなければならない手順を正しく理解しましたか? (手順が不要または必要な場合は、詳細に説明してください)

2.データベースは必要ですか?

注意:lucene、nutch、solrなどの既製のものを使用せずに、自分で実装したい...

編集: 3 人がアプレットはそのようなことに適していないと私に言ったので、代わりになるものは何ですか?

あなたの助けに感謝します。

4

3 に答える 3

0

Lucene の使用を検討する必要があります。これは、ここで必要なことのほとんどを実行するためです。

アプレットは使用しないでください。

于 2013-10-05T05:52:18.113 に答える
0

小さなデータ セットの場合は、データベースで十分です。mysql などのデータベースには、全文検索機能が付属しています。

より大きなデータ セットについては、LuceneまたはSolrを検討することをお勧めします。

于 2013-10-05T05:54:28.463 に答える
0

これは、これを実装する 1 つの方法です。もう 1 つの (より簡単な) 方法は、Lucene / Solr などの既存のテキスト検索 / インデックス作成エンジンを使用することです。データベース技術を使用して「テキスト検索/インデックス作成」ホイールを再実装する努力に行くことは、そうする正当な技術的理由がない限り、努力の無駄に思えます。

その場でウェブサイトのインデックスを作成することは単に機能しないため、何らかのデータベースが必要です。Lucene がそれを処理します。

UI を構築するための Java アプレットの選択は、悪い考えだと思います。Java ブラウザ プラグインのセキュリティ リスクなしで、同等またはそれ以上の結果が得られるテクノロジは他にもあります。


最後に、ウェブサイトを検索可能にするもう 1 つの方法は、Google に検索してもらうことです。Web サイトのコンテンツをインデックス可能にしてから、Google の検索 API を使用します。

于 2013-10-05T05:56:14.037 に答える