ceph - 時間内に深くスクラブされていない Ceph PG が増加し続ける

Question

私はこれに約4日前に気づきましたが、今何をすべきかわかりません。問題は次のとおりです。

84 個の OSD、72x7200rpm スピンディスク、およびジャーナリング用に 12xnvme ssds を備えた 6 ノード 3 モニター ceph クラスターがあります。スクラブ構成のすべての値はデフォルト値です。クラスター内のすべての pg はアクティブでクリーンであり、すべてのクラスター統計は緑色です。それでも、時間内にディープスクラビングされていない PG は増加し続けており、現在は 96 です。ceph -s からの出力:

  cluster:
    id:     xxxxxxxxxxxxxxxxx
    health: HEALTH_WARN
            1 large omap objects
            96 pgs not deep-scrubbed in time

  services:
    mon: 3 daemons, quorum mon1,mon2,mon3 (age 6h)
    mgr: mon2(active, since 2w), standbys: mon1
    mds: cephfs:1 {0=mon2=up:active} 2 up:standby
    osd: 84 osds: 84 up (since 4d), 84 in (since 3M)
    rgw: 3 daemons active (mon1, mon2, mon3)

  data:
    pools:   12 pools, 2006 pgs
    objects: 151.89M objects, 218 TiB
    usage:   479 TiB used, 340 TiB / 818 TiB avail
    pgs:     2006 active+clean

  io:
    client:   1.3 MiB/s rd, 14 MiB/s wr, 93 op/s rd, 259 op/s wr

この問題を解決するにはどうすればよいですか? また、ceph health の詳細出力は、このディープスクラブされていない pg アラートが 1 月 25 日に開始されたことを示していますが、以前はこれに気づきませんでした。これに気付いたのは、OSD が 30 秒間ダウンしてから立ち上がったときでした。この問題に関連している可能性がありますか？それは自然に解決しますか？スクラブ構成を改ざんする必要がありますか? たとえば、osd_max_scrubs を 1 から 2 に増やすと、クライアント側でどれだけのパフォーマンスが低下するでしょうか?

score 1 · Accepted Answer

ディープスクラブ期間を 2 週間に設定して、ディープスクラブウィンドウを伸ばすことができます。の代わりに

 osd_deep_scrub_interval = 604800

使用する：

 osd_deep_scrub_interval = 1209600

Eblock 氏は、アクションを 2 週間以内に分散させるために、一部の pgs を手動でディープスクラブに強制することをお勧めします。

ceph - 時間内に深くスクラブされていない Ceph PG が増加し続ける

3 に答える 3

Related

Reference