このコードは、Web サイトの html ファイルを検索し、ドメイン名のリストを抽出します...
httrack --skeleton http://www.ilovefreestuff.com -V "cat \$0" | grep -iEo '[[:alnum:]-]+\.(com|net|org)'
結果はこんな感じ。
- domain1.com
- domain2.com
- domain3.com
このコードを非常に大規模な Web サイトで使用する予定であるため、非常に大きなドメイン名のリストが生成されます。さらに、上記のコードは多くの重複したドメイン名を生成します。したがって、重複が挿入されないように、一意のフィールドを使用して mysql データベースをセットアップします。
プログラミングに関する私の限られた知識を使用して、以下の行をハッキングしましたが、これは機能しません。コマンドを実行すると、エラーは発生せず、新しいコマンド プロンプト > と点滅するカーソルだけが表示されます。私は、正しい構文や方法論を使用していないと思います。また、コマンドラインではやりたいことを実行できない可能性があります。どんな助けでも大歓迎です。
httrack --skeleton http://www.ilovefreestuff.com -V "cat \$0" | domain=“$(grep -iEo '[[:alnum:]-]+\.(com|net|org)’)” | mysql -pPASSWORD -e "INSERT INTO domains.domains (domains) VALUES ($domain)”
はい、データベース名はドメイン、テーブル名はドメイン、フィールド名はドメインです。