Screaming Frogで生成した壊れたリンクの膨大なリストがあり、それらの多くを修正し始めました。私はcsvファイルをscreaming frogに戻し、どの壊れたリンクが残っているかを確認したので、2つのCSVファイルがあります。古いリストから新しいリストを差し引いて、すでに修正したリンクを確認するにはどうすればよいですか?
3 に答える
次の方法は、次のことを前提としています。
A:壊れたリンクはすべてoldfileにあります。B:いくつかの壊れたリンクはnewfileにあります。C:共有回線は完全に重複しています。
sort newfile oldfile | uniq -d > filesThatAreStillBroken
また
sort newfile oldfile | uniq -u > filesThatAreFixed
並べ替えは、ファイルを1つの並べ替えられたリストにマージします。newfileとoldfileのどちらが最初であるかは関係ありません。
uniq -dは、複数回発生する行のみを出力します。それらは両方のリストに含まれていたため、まだ壊れています。
uniq -uは、一意の行のみを出力します。
注:これは、古いエラーの修正中に発生した新しいエラーをキャッチしません。新しいエラーはnewfilesにのみ存在するため、2回目の呼び出しで修正済みとして誤って報告され、最初の呼び出しではまったく報告されません。
タイプ
man sort
man uniq
これら2つのコマンドラインユーティリティの詳細については。
Windowsボックスを使用している場合は、cygwin環境をインストールできます。または、Windowsにposixコマンドセットが設定されている可能性があります。
両方のCSVをExcelにインポートします。
大きい方のリストの列Bのセルに数式を追加します。=COUNTIF(Sheet2!A:A,A1)
これにより、そのセルが他のリストに表示された回数がわかります。
ここで、カウントが0より大きいものを削除する必要があります。
ヒント:行を簡単に削除するには:ヘッダー行を追加し、自動フィルターをオンにし、カウント0の選択を解除し、行を削除し、自動フィルターをオフにします。(または、順序が乱れるのを気にしない場合は、リストを並べ替えることができます)
Excelでこの関数を試してください。
=IF(COUNTIFS($B$1:$B$6, A1), "Borked", "Fixed")
A値が小さいリスト内の何かを指していること(まだ壊れている)とB範囲が壊れたリンクの元のセットをカバーしていることを確認してください