問題タブ [dmoz]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python でのカテゴリ クエリの DMOZ ダンプの解析
私は現在、特定のキーワードが関連する「知識のドメイン」を見つけることを含むプロジェクトに取り組んでいます。DMOZを使用してこれを行う予定です。たとえば、「ブラッド・ピット」は
等々...
DMOZ Web サイトからの structure.rdf.u8 ダンプがあります。URL が必要ない場合は、このファイルだけで十分だと誰かが私に言いました (Web サイトは必要なく、キーワードに関連するカテゴリのみが必要です)。または、コンテンツ ファイルも必要ですか?
さらに、Python(任意のライブラリ)を使用して構造ファイルを解析する最良の方法を知りたいです。Python は得意ですが、XML の知識はありません。
scrapy - スクレイピー チュートリアル: スクレイピー クロール dmoz を実行できません
前回の質問で十分に明確ではなかったことを認識しているため、新しい質問をしています。私はスクレイピーのチュートリアルに従おうとしていますが、重要なステップである「スクレイピー クロール dmoz」コマンドで行き詰まっています。コードは次のとおりです (Python シェルで記述し、.py 拡張子を付けて保存します)。 :
私が使用しているディレクトリは問題ないはずです。ツリーの下を見つけてください。
「scapy crawl dmoz」を実行しようとすると、次のようになります。
私が行っている手順の何が問題なのか誰かが知っていますか? ご協力ありがとうございました。これは私の最初のプログラミング経験なので、非常にばかげた問題かもしれません。
java - jar ファイルの読み込みに失敗しました「クラスの読み込みに失敗しました」
このコードを使用して、 DMOZファイルを解析しようとしています。ただし、コードを実行した後、アプリケーションは最初に停止し、次の例外が生成されます。
jar が に設定されている場合no-operation
、なぜこのコードでそれを使用したのでしょうか? (その場合とそうでない場合) この問題を解決するにはどうすればよいですか?
編集
これによると、別のjarを追加しましたが、別の例外があります:
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/logging/LogFactory
at org.apache.hadoop.conf.Configuration.<clinit>(Configuration.java:146)
at org.apache.nutch.util.NutchConfiguration.create(NutchConfiguration.java:59)
at dmozparser.DmozParser.main(DmozParser.java:339)
Caused by: java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory
at java.net.URLClassLoader$1.run(URLClassLoader.java:372)
at java.net.URLClassLoader$1.run(URLClassLoader.java:361)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:360)
at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:308)
at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
... 3 more
編集2
追加されcommons-logging-1.2.jar
、今ではあるようですUnsupportedOperationException
:
Failed to set setXIncludeAware(true) for parser org.apache.xerces.jaxp.DocumentBuilderFactoryImpl@723279cf:java.lang.UnsupportedOperationException: setXIncludeAware is not supported on this JAXP implementation or earlier: class org.apache.xerces.jaxp.DocumentBuilderFactoryImpl
java.lang.UnsupportedOperationException: setXIncludeAware is not supported on this JAXP implementation or earlier: class org.apache.xerces.jaxp.DocumentBuilderFactoryImpl
at javax.xml.parsers.DocumentBuilderFactory.setXIncludeAware(DocumentBuilderFactory.java:584)
at org.apache.hadoop.conf.Configuration.loadResource(Configuration.java:1131)
at org.apache.hadoop.conf.Configuration.loadResources(Configuration.java:1107)
at org.apache.hadoop.conf.Configuration.getProps(Configuration.java:1053)
at org.apache.hadoop.conf.Configuration.set(Configuration.java:420)
at org.apache.nutch.util.NutchConfiguration.setUUID(NutchConfiguration.java:41)
at org.apache.nutch.util.NutchConfiguration.create(NutchConfiguration.java:60)
at dmozparser.DmozParser.main(DmozParser.java:339)
これorg.apache.xerces.jaxp.DocumentBuilderFactoryImpl
はサポートされていないようですが、適切なものに置き換えるにはどうすればよいですか?
python-2.7 - Scrapy dmoz チュートリアル: _init_() は最大 2 つの引数を取ります (3 つ指定)
PS C:\users\steve\tutorial> スクレイピー クロール dmoz
私の dmoz スパイダー python スクリプトはこちら