問題タブ [dmoz]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
819 参照

python - Python でのカテゴリ クエリの DMOZ ダンプの解析

私は現在、特定のキーワードが関連する「知識のドメイン」を見つけることを含むプロジェクトに取り組んでいます。DMOZを使用してこれを行う予定です。たとえば、「ブラッド・ピット」は

等々...

DMOZ Web サイトからの structure.rdf.u8 ダンプがあります。URL が必要ない場合は、このファイルだけで十分だと誰かが私に言いました (Web サイトは必要なく、キーワードに関連するカテゴリのみが必要です)。または、コンテンツ ファイルも必要ですか?

さらに、Python(任意のライブラリ)を使用して構造ファイルを解析する最良の方法を知りたいです。Python は得意ですが、XML の知識はありません。

0 投票する
2 に答える
3084 参照

scrapy - スクレイピー チュートリアル: スクレイピー クロール dmoz を実行できません

前回の質問で十分に明確ではなかったことを認識しているため、新しい質問をしています。私はスクレイピーのチュートリアルに従おうとしていますが、重要なステップである「スクレイピー クロール dmoz」コマンドで行き詰まっています。コードは次のとおりです (Python シェルで記述し、.py 拡張子を付けて保存します)。 :

私が使用しているディレクトリは問題ないはずです。ツリーの下を見つけてください。

「scapy crawl dmoz」を実行しようとすると、次のようになります。

私が行っている手順の何が問題なのか誰かが知っていますか? ご協力ありがとうございました。これは私の最初のプログラミング経験なので、非常にばかげた問題かもしれません。

0 投票する
1 に答える
471 参照

java - Jena を使用して structure.rdf.u8 を解析するときの例外

Jenaのドキュメントで提供されている上記のコードを使用して、 ODPを解析します。最初にいくつかの例外が発生したため、Jena パッケージにすべてのjarファイルを追加したところ、次の長い例外が発生しました。

`

これを修正するためにいくつかのjarファイルを削除する必要があるのか​​、それとも Apache サイトで提供されているコードが間違っているのかわかりません。

0 投票する
0 に答える
1144 参照

java - jar ファイルの読み込みに失敗しました「クラスの読み込みに失敗しました」

このコードを使用して、 DMOZファイルを解析しようとしています。ただし、コードを実行した後、アプリケーションは最初に停止し、次の例外が生成されます。

jar が に設定されている場合no-operation、なぜこのコードでそれを使用したのでしょうか? (その場合とそうでない場合) この問題を解決するにはどうすればよいですか?

編集

これによると、別のjarを追加しましたが、別の例外があります:

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/logging/LogFactory at org.apache.hadoop.conf.Configuration.<clinit>(Configuration.java:146) at org.apache.nutch.util.NutchConfiguration.create(NutchConfiguration.java:59) at dmozparser.DmozParser.main(DmozParser.java:339) Caused by: java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory at java.net.URLClassLoader$1.run(URLClassLoader.java:372) at java.net.URLClassLoader$1.run(URLClassLoader.java:361) at java.security.AccessController.doPrivileged(Native Method) at java.net.URLClassLoader.findClass(URLClassLoader.java:360) at java.lang.ClassLoader.loadClass(ClassLoader.java:424) at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:308) at java.lang.ClassLoader.loadClass(ClassLoader.java:357) ... 3 more

編集2

追加されcommons-logging-1.2.jar、今ではあるようですUnsupportedOperationException

Failed to set setXIncludeAware(true) for parser org.apache.xerces.jaxp.DocumentBuilderFactoryImpl@723279cf:java.lang.UnsupportedOperationException: setXIncludeAware is not supported on this JAXP implementation or earlier: class org.apache.xerces.jaxp.DocumentBuilderFactoryImpl java.lang.UnsupportedOperationException: setXIncludeAware is not supported on this JAXP implementation or earlier: class org.apache.xerces.jaxp.DocumentBuilderFactoryImpl at javax.xml.parsers.DocumentBuilderFactory.setXIncludeAware(DocumentBuilderFactory.java:584) at org.apache.hadoop.conf.Configuration.loadResource(Configuration.java:1131) at org.apache.hadoop.conf.Configuration.loadResources(Configuration.java:1107) at org.apache.hadoop.conf.Configuration.getProps(Configuration.java:1053) at org.apache.hadoop.conf.Configuration.set(Configuration.java:420) at org.apache.nutch.util.NutchConfiguration.setUUID(NutchConfiguration.java:41) at org.apache.nutch.util.NutchConfiguration.create(NutchConfiguration.java:60) at dmozparser.DmozParser.main(DmozParser.java:339)

これorg.apache.xerces.jaxp.DocumentBuilderFactoryImplはサポートされていないようですが、適切なものに置き換えるにはどうすればよいですか?

0 投票する
1 に答える
437 参照

python-2.7 - Scrapy dmoz チュートリアル: _init_() は最大 2 つの引数を取ります (3 つ指定)

PS C:\users\steve\tutorial> スクレイピー クロール dmoz

私の dmoz スパイダー python スクリプトはこちら