指定された URL からも PDF ドキュメントをクロールする必要があります... PDF ドキュメントをクロールするためのツール/API も提案してください... 現在、nutch を使用してクロールしていますが、指定された URL から PDF をクロールできませんでした ... 使用する必要がありますナットで PDF をクロールするプラグイン?
seed.txt --> http://nutch.apache.org regex-urlfilter.txt--->+^http://([a-z0-9]*.)*nutch.apache.org/
前もって感謝します