ceph - 「不完全」のままになっている Ceph PG を破棄するには?

Question

多数の OSD が失われた後、Ceph クラスターの復元に取り組んでいます。現在、「不完全」状態でスタックしている 80 個の PG を除いて、すべての PG がアクティブになっています。これらの PG は、破損のために 2 週間前に削除された OSD.8 を参照しています。

「不完全」な PG は復元できないため、破棄したいと考えています。次のことを試しました。

ドキュメントに従って、対応するプールの min_size が 1 に設定されていることを確認しました。これは条件をクリアしませんでした。
OSD.8 がクラスターから既に削除されているため、Ceph では「ceph osd lost N」を発行できませんでした。
また、すべての PG で「ceph pg force_create_pg X」を試しました。80 個の PG は数分間「作成中」に移行しましたが、その後すべて「未完了」に戻りました。

これらの PG を破棄して回復を続行するにはどうすればよいですか? 個々の PG を強制的に「失われた」とマークする方法はありますか?

OSD を削除するには、次の Web サイトの手順を使用しました。

http://docs.ceph.com/docs/jewel/rados/operations/add-or-rm-osds/#removing-osds-manual

基本的：

ceph osd crush remove 8
ceph auth del osd.8
ceph osd rm 8

以下のいくつかのその他のデータ:

djakubiec@dev:~$ ceph osd lost 8 --yes-i-really-mean-it
osd.8 is not down or doesn't exist


djakubiec@dev:~$ ceph osd tree
ID WEIGHT   TYPE NAME       UP/DOWN REWEIGHT PRIMARY-AFFINITY
-1 58.19960 root default
-2  7.27489     host node24
 1  7.27489         osd.1        up  1.00000          1.00000
-3  7.27489     host node25
 2  7.27489         osd.2        up  1.00000          1.00000
-4  7.27489     host node26
 3  7.27489         osd.3        up  1.00000          1.00000
-5  7.27489     host node27
 4  7.27489         osd.4        up  1.00000          1.00000
-6  7.27489     host node28
 5  7.27489         osd.5        up  1.00000          1.00000
-7  7.27489     host node29
 6  7.27489         osd.6        up  1.00000          1.00000
-8  7.27539     host node30
 9  7.27539         osd.9        up  1.00000          1.00000
-9  7.27489     host node31
 7  7.27489         osd.7        up  1.00000          1.00000

しかし、OSD 8 はもう存在しませんが、さまざまな ceph ダンプやクエリで OSD 8 への参照がまだたくさん見られます。

興味深いことに、CRUSH マップにはまだ奇妙なエントリが表示されます (これらについて何か対処する必要がありますか?)。

# devices
device 0 device0
device 1 osd.1
device 2 osd.2
device 3 osd.3
device 4 osd.4
device 5 osd.5
device 6 osd.6
device 7 osd.7
device 8 device8
device 9 osd.9

そして、それが価値があるために、ここに ceph -s があります：

cluster 10d47013-8c2a-40c1-9b4a-214770414234
 health HEALTH_ERR
        212 pgs are stuck inactive for more than 300 seconds
        93 pgs backfill_wait
        1 pgs backfilling
        101 pgs degraded
        63 pgs down
        80 pgs incomplete
        89 pgs inconsistent
        4 pgs recovery_wait
        1 pgs repair
        132 pgs stale
        80 pgs stuck inactive
        132 pgs stuck stale
        103 pgs stuck unclean
        97 pgs undersized
        2 requests are blocked > 32 sec
        recovery 4394354/46343776 objects degraded (9.482%)
        recovery 4025310/46343776 objects misplaced (8.686%)
        2157 scrub errors
        mds cluster is degraded
 monmap e1: 3 mons at {core=10.0.1.249:6789/0,db=10.0.1.251:6789/0,dev=10.0.1.250:6789/0}
        election epoch 266, quorum 0,1,2 core,dev,db
  fsmap e3627: 1/1/1 up {0=core=up:replay}
 osdmap e4293: 8 osds: 8 up, 8 in; 144 remapped pgs
        flags sortbitwise
  pgmap v1866639: 744 pgs, 10 pools, 7668 GB data, 20673 kobjects
        8339 GB used, 51257 GB / 59596 GB avail
        4394354/46343776 objects degraded (9.482%)
        4025310/46343776 objects misplaced (8.686%)
             362 active+clean
             112 stale+active+clean
              89 active+undersized+degraded+remapped+wait_backfill
              66 active+clean+inconsistent
              63 down+incomplete
              19 stale+active+clean+inconsistent
              17 incomplete
               5 active+undersized+degraded+remapped
               4 active+recovery_wait+degraded
               2 active+undersized+degraded+remapped+inconsistent+wait_backfill
               1 stale+active+clean+scrubbing+deep+inconsistent+repair
               1 active+remapped+inconsistent+wait_backfill
               1 active+clean+scrubbing+deep
               1 active+remapped+wait_backfill
               1 active+undersized+degraded+remapped+backfilling

ceph - 「不完全」のままになっている Ceph PG を破棄するには?

0 に答える 0

Related

Reference