google-chrome - 保存された Web 履歴を持つ Python Web クローラー

Question

私はPython Webクローラーを作成しています。これは、Web履歴を閲覧し、情報を解析し、法医学/学術目的のためにデータベース内に重要な情報を保存する機能を備えています. Web サイトを閲覧する機能は理解していますが、苦労している部分は、Web 履歴をクロールできることです。シナリオを示します。

フォレンジック調査中。

容疑者のコンピューターの完全なフォレンジックイメージが提供された後、フォーム情報、資格情報、Web 履歴など、容疑者に関するすべての情報が保存されている Google Chrome の AppData フォルダーを見つけます。

容疑者の Web 履歴のデータのみを検索するように Web クローラーを設定するにはどうすればよいですか。

また、Google Chrome ユーザーデータ内に保存されている情報にアクセスして、ここに保存されている個人情報を表示しようとすると問題が発生します。現在、DB ブラウザーを使用してファイルを表示し、自分の Web 履歴を表示しようとしていますが、私はこれであまり運がありません。助言がありますか

私のこのプロジェクトに興味がある人は、このスレッドを更新しながら Web クローラーの進行状況を確認できます名前、住所、生年月日をデータベースに登録して、後で人名辞書として使用できます。

これはすべて管理された環境での学術目的のためであり、テスト/偽のアカウントで使用されるため、もう一度強調します

score 0 · Accepted Answer

Hindsight ( https://github.com/obsidianforensics/hindsight ) は Python で記述されたオープンソースツールで、/Google/Chrome/User Data/ ディレクトリ内のファイルから大量の情報を解析できます。

インスピレーションを得るためにそのソースを確認するか、ツールを実行してその出力 (XLSX、JSON、または SQLite を生成できます) をクローラーで解析することができます。

google-chrome - 保存された Web 履歴を持つ Python Web クローラー

1 に答える 1

Related

Reference