CEPH - Possible data damage: 1 pg inconsistent

Une petite note pour réparer un PG sur un cluster CEPH. Message d'erreur : Possible data damage: 1 pg inconsistent.

Problème rencontré

Le retour de la commande ceph -s affiche un état de santé dégradé du cluster CEPH avec le message Possible data damage: 1 pg inconsistent.

root@FE-CEPH02:~# ceph -s
cluster:
id: 3d910cc6-e908-4b0f-95b5-c695337f6080
health: HEALTH_ERR
4 scrub errors
Possible data damage: 1 pg inconsistent

services:
mon: 3 daemons, quorum FE-CEPHADM,FE-CEPH01,FE-CEPH02
mgr: FE-CEPHADM(active), standbys: FE-CEPH01, FE-CEPH02
osd: 5 osds: 5 up, 5 in

data:
pools: 1 pools, 200 pgs
objects: 246.25k objects, 942GiB
usage: 1.82TiB used, 13.6TiB / 15.4TiB avail
pgs: 199 active+clean
1 active+clean+inconsistent

Procédure

1) Se connecter en SSH sur l'un des noeuds du cluster CEPH

2) Déterminer le ou les PG en erreur. Pour cela, saisir la commande suivante :

root@FE-CEPH02:~# ceph health detail

HEALTH_ERR 4 scrub errors; Possible data damage: 1 pg inconsistent
OSD_SCRUB_ERRORS 4 scrub errors
PG_DAMAGED Possible data damage: 1 pg inconsistent
pg 3.6d is active+clean+inconsistent, acting [3,1]

Dans mon cas, la valeur qui nous intéresse est 3.6d

3) Lancer la procédure de réparation du PG via la commande suivante :

root@FE-CEPH02:~# ceph pg repair 3.6d
instructing pg 3.6d on osd.3 to repair

4) Afficher le statut du cluster CEPH pour voir la prise en compte de la demande de réparation :

root@FE-CEPH02:~# ceph -s
cluster:
id: 3d910cc6-e908-4b0f-95b5-c695337f6080
health: HEALTH_ERR
4 scrub errors
Possible data damage: 1 pg inconsistent, 1 pg repair

services:
mon: 3 daemons, quorum FE-CEPHADM,FE-CEPH01,FE-CEPH02
mgr: FE-CEPHADM(active), standbys: FE-CEPH02, FE-CEPH01
osd: 5 osds: 5 up, 5 in

data:
pools: 1 pools, 200 pgs
objects: 246.25k objects, 942GiB
usage: 1.81TiB used, 13.6TiB / 15.4TiB avail
pgs: 199 active+clean
1 active+clean+scrubbing+deep+inconsistent+repair

Le PG est bien indiqué avec un statut REPAIR

5) Attendre quelques minutes puis afficher l'état du cluster CEPH

root@FE-CEPHADM:~# ceph -s
cluster:
id: 3d910cc6-e908-4b0f-95b5-c695337f6080
health: HEALTH_OK

services:
mon: 3 daemons, quorum FE-CEPHADM,FE-CEPH01,FE-CEPH02
mgr: FE-CEPHADM(active), standbys: FE-CEPH02, FE-CEPH01
osd: 5 osds: 5 up, 5 in

data:
pools: 1 pools, 200 pgs
objects: 246.25k objects, 942GiB
usage: 1.81TiB used, 13.6TiB / 15.4TiB avail
pgs: 200 active+clean

6) Le cluster CEPH est de nouveau avec un état de santé optimal. Si votre cluster indique fréquemment des PG en erreur, il est impératif de vérifier vos support de stockage.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *