1

SharePointインスタンスでいくつかの検索を実行すると、いくつかのファイルの検索結果に[重複の表示]リンクが表示されます。

これらすべての重複について報告する方法はありますか?

md5ハッシュに基づいて重複を見つけるためにここにこのSQLがあることを確認しました:http ://social.technet.microsoft.com/forums/en-US/sharepointsearch/thread/8a8b25d9-a3ac-45df-86de-2a3a7838a534およびここで、SQL forSharePoint2010の互換性を修正しました。

-- Step1 : get all files with short names, md5 signatures, and size
SELECT  md5 ,
        RIGHT(DisplayURL, CHARINDEX('/', REVERSE(DisplayURL)) - 1) AS ShortFileName ,
        DisplayURL AS Url ,
        llVal / 1024 AS FileSizeKb
INTO    #listingFilesMd5Size
FROM    SearchServiceApplication_CrawlStore.dbo.MSSCrawlURL y
        INNER JOIN SearchServiceApplication_PropertyStore.dbo.MSSDocProps dp ON ( y.DocID = dp.DocID )
WHERE   dp.pid = 58 -- File size
        AND llVal > 1024 * 10 -- 10 Kb minimum in size
        AND md5 <> 0
        AND CHARINDEX('/', REVERSE(DisplayURL)) > 1

-- Step 2: Filter duplicated items

SELECT  COUNT(*) AS NbDuplicates ,
        md5 ,
        ShortFileName ,
        FileSizeKb
INTO    #duplicates
FROM    #listingFilesMd5Size
GROUP BY md5 ,
        ShortFileName ,
        FileSizeKb
HAVING  COUNT(*) > 1
ORDER BY COUNT(*) DESC

DROP TABLE #listingFilesMd5Size

-- Step3 : show the report with search URLs

SELECT  *,
        NbDuplicates * FileSizeKb AS TotalSpaceKb ,
        'http://srv-moss/SearchCenter/Pages/results.aspx?k=' + ShortFileName AS SearchUrl
FROM    #duplicates
--ORDER BY NbDuplicates * FileSizeKb DESC

DROP TABLE #duplicates

ただし、これは完全な重複にのみ一致しますが、SharePointが検索結果の[重複の表示]リンクに基づいて重複していると見なすものに関心があります。

管理プロパティ「DuplicateHash」があることを確認しましたが、これはどこにも文書化されておらず、オブジェクトモデルを介してアクセスする方法を見つけることができません。

ありがとう

4

2 に答える 2

0

データベースに直接クエリを実行しないでください。サポートされていない状態になる可能性があります。

重複について:「重複検索」はハッシュとは何の関係もありません。これは、ドキュメント ベクトル (主に用語と用語の数) を比較する検索エンジン インデックスによって処理されます。

結果が得られる FQL (Fast を使用している場合は Search QL) クエリを見つけようとするかもしれませんが、これが可能かどうかはわかりません。

于 2011-05-20T05:51:07.257 に答える