多数の OSD が失われた後、Ceph クラスターの復元に取り組んでいます。現在、「不完全」状態でスタックしている 80 個の PG を除いて、すべての PG がアクティブになっています。これらの PG は、破損のために 2 週間前に削除された OSD.8 を参照しています。
「不完全」な PG は復元できないため、破棄したいと考えています。次のことを試しました。
- ドキュメントに従って、対応するプールの min_size が 1 に設定されていることを確認しました。これは条件をクリアしませんでした。
- OSD.8 がクラスターから既に削除されているため、Ceph では「ceph osd lost N」を発行できませんでした。
- また、すべての PG で「ceph pg force_create_pg X」を試しました。80 個の PG は数分間「作成中」に移行しましたが、その後すべて「未完了」に戻りました。
これらの PG を破棄して回復を続行するにはどうすればよいですか? 個々の PG を強制的に「失われた」とマークする方法はありますか?
OSD を削除するには、次の Web サイトの手順を使用しました。
http://docs.ceph.com/docs/jewel/rados/operations/add-or-rm-osds/#removing-osds-manual
基本的:
ceph osd crush remove 8
ceph auth del osd.8
ceph osd rm 8
以下のいくつかのその他のデータ:
djakubiec@dev:~$ ceph osd lost 8 --yes-i-really-mean-it
osd.8 is not down or doesn't exist
djakubiec@dev:~$ ceph osd tree
ID WEIGHT TYPE NAME UP/DOWN REWEIGHT PRIMARY-AFFINITY
-1 58.19960 root default
-2 7.27489 host node24
1 7.27489 osd.1 up 1.00000 1.00000
-3 7.27489 host node25
2 7.27489 osd.2 up 1.00000 1.00000
-4 7.27489 host node26
3 7.27489 osd.3 up 1.00000 1.00000
-5 7.27489 host node27
4 7.27489 osd.4 up 1.00000 1.00000
-6 7.27489 host node28
5 7.27489 osd.5 up 1.00000 1.00000
-7 7.27489 host node29
6 7.27489 osd.6 up 1.00000 1.00000
-8 7.27539 host node30
9 7.27539 osd.9 up 1.00000 1.00000
-9 7.27489 host node31
7 7.27489 osd.7 up 1.00000 1.00000
しかし、OSD 8 はもう存在しませんが、さまざまな ceph ダンプやクエリで OSD 8 への参照がまだたくさん見られます。
興味深いことに、CRUSH マップにはまだ奇妙なエントリが表示されます (これらについて何か対処する必要がありますか?)。
# devices
device 0 device0
device 1 osd.1
device 2 osd.2
device 3 osd.3
device 4 osd.4
device 5 osd.5
device 6 osd.6
device 7 osd.7
device 8 device8
device 9 osd.9
そして、それが価値があるために、ここに ceph -s があります:
cluster 10d47013-8c2a-40c1-9b4a-214770414234
health HEALTH_ERR
212 pgs are stuck inactive for more than 300 seconds
93 pgs backfill_wait
1 pgs backfilling
101 pgs degraded
63 pgs down
80 pgs incomplete
89 pgs inconsistent
4 pgs recovery_wait
1 pgs repair
132 pgs stale
80 pgs stuck inactive
132 pgs stuck stale
103 pgs stuck unclean
97 pgs undersized
2 requests are blocked > 32 sec
recovery 4394354/46343776 objects degraded (9.482%)
recovery 4025310/46343776 objects misplaced (8.686%)
2157 scrub errors
mds cluster is degraded
monmap e1: 3 mons at {core=10.0.1.249:6789/0,db=10.0.1.251:6789/0,dev=10.0.1.250:6789/0}
election epoch 266, quorum 0,1,2 core,dev,db
fsmap e3627: 1/1/1 up {0=core=up:replay}
osdmap e4293: 8 osds: 8 up, 8 in; 144 remapped pgs
flags sortbitwise
pgmap v1866639: 744 pgs, 10 pools, 7668 GB data, 20673 kobjects
8339 GB used, 51257 GB / 59596 GB avail
4394354/46343776 objects degraded (9.482%)
4025310/46343776 objects misplaced (8.686%)
362 active+clean
112 stale+active+clean
89 active+undersized+degraded+remapped+wait_backfill
66 active+clean+inconsistent
63 down+incomplete
19 stale+active+clean+inconsistent
17 incomplete
5 active+undersized+degraded+remapped
4 active+recovery_wait+degraded
2 active+undersized+degraded+remapped+inconsistent+wait_backfill
1 stale+active+clean+scrubbing+deep+inconsistent+repair
1 active+remapped+inconsistent+wait_backfill
1 active+clean+scrubbing+deep
1 active+remapped+wait_backfill
1 active+undersized+degraded+remapped+backfilling