3

「オートマトン理論」についてscholar.google.comで引用された論文のトップ100のリストgrabTopResults(String f)を返すようなJava関数を書きたいと思います。grabTopResults("automata theory")

どの図書館が私の生活を楽にするかについて誰かが提案を持っていますか?

ありがとう!

4

3 に答える 3

4

グーグルは帯域幅を買う余裕があると確信しているので、これが不道徳/違法/グーグルのT&Cによって禁止されているかどうかの質問を無視します

最初に行う必要があるのは、必要なデータを含むページを取得するために発行する必要のあるHTTPリクエスト(または複数のリクエスト)を把握することです。これを理解したら、HttpClientを使用してJavaコードから同じリクエストを発行します。前のリンクは、これを行う方法を説明するサンプルコードを示しています。

関連するページのコンテンツをダウンロードしたら、HTMLパーサーを使用して、関心のあるデータを抽出する必要があります。pepergが提案するJerichoパーサーが適しています。

グーグルの警察がノックしてくると、あなたは私のことを聞いたことがありませんね。

于 2010-01-13T15:09:38.770 に答える
1

私はhttp://jericho.htmlparser.net/docs/index.htmlを使用しています。Google ScholarにはAPIがありません(http://code.google.com/p/google-ajax-apis/issues/detail?id=109)。もちろん、Googleでは許可されていません(利用規約をお読みください。自動リクエスターは禁止されています)。

于 2010-01-13T12:51:22.420 に答える
0

以下は、オープンソース製品のTestPlanを使用して最初のページのタイトルを取得するコードの例です。これはスタンドアロン製品ですが、本当に必要な場合は、Javaコード(Java自体で記述されています)に統合するのを手伝うことができます。

GotoURL http://scholar.google.com/

SubmitForm with
    %Params:q% automate theory
end

set %Items% as response //div[@class='gs_r']
foreach %Item% in %Items%
    set %Title% as selectIn %Item% h3
    Notice %Title%
end

これにより、次のような出力が生成されます(私のIPはドイツであるため、ドイツの応答です)。もちろん、好きなようにフォーマットしたり、ファイルに書き込んだりすることができます。これは大まかなテストです。

00000000-00 GOTOURL http://scholar.google.com/
00000001-00 SUBMITFORM default
00000002-00 NOTICE [ZITATION] Stochastic complexity in statistical inquiry theory
00000003-00 NOTICE AUTOMATED THEORY FORMATION IN MATHEMATICS1
00000004-00 NOTICE Constraint generation via automated theory formation
00000005-00 NOTICE [BUCH] Automated theorem proving: after 25 years
00000006-00 NOTICE [BUCH] Introduction to the Theory of Computation
00000007-00 NOTICE [ZITATION] Computer-controlled systems: theory and design
00000008-00 NOTICE [BUCH] … , randomness & incompleteness: papers on algorithmic information theory
00000009-00 NOTICE [BUCH] Automatic control systems
00000010-00 NOTICE [BUCH] VLSI physical design automation: theory and practice
00000011-00 NOTICE Singular Control Systems.
于 2010-02-19T14:04:08.977 に答える