Devenir SysAdmin d’une PME - De l’importance du retex suite à un incident
12 novembre 2018 09:00 1 messagesLe retex est l’abréviation du RERTour d’EXpérience. Apprendre de ses erreurs pour ne pas le reproduire et une part importante du travail de sysadmin. Pour éviter de faire et de reproduire une erreur, il y a plusieurs choses à faire et prendre en compte : tirer profit de l’expérience des personnes (ce que j’aborderai dans un autre billet sur le partage d’expérience).
On dit souvent avec humour dans le milieu des administrateurs systèmes travaillant sous Linux : il y a deux types d’administrateurs systèmes, celui qui a déjà fait rm -rf / et celui qui le fera.
Nombreuses sont les occasions de faire des erreurs. Et on aura beau avoir pensé au maximum de cas, il y aura forcément le cas non prévu... Et dans le cas où on est amené à travailler dans une situation d’urgence, on fait au plus vite, et une nouvelle erreur est vite arrivée...
Il est donc important, une fois la situation qui a amené à un incident passée, de comprendre comment on est arrivé dans cette situation, de lancer les chantiers de correction des causes, de documenter ce qui ne l’était pas et d’améliorer ce qui l’était déjà, de définir des procédures permettant d’aller à l’essentiel et de ne pas se poser de questions si l’incident est susceptible de revenir...
Ce retex doit être fait assez rapidement pour ne rien oublier. La consultation de l’historique des commandes passés peut être utile pour voir ce qui a été utile, ce qui a été du tâtonement, ce qui a été une voix sans issue, ce qui a marché et ce qui n’a pas marché...
En résumé, un postmortem a pour objectif de documenter ce qui a mal tourné, ce qui a bien tourné, de décrire ce qui peut être fait pour prévenir la nouvel arrivée de ce type d’incident dans le futur. Et bien évidement, l’objectif est tout sauf de blâmer ou de trouver à qui incombe la responsabilité... Un postmortem passe par le création d’une liste de ce qui ne s’est pas bien passé, avec une chronologie détaillée des actions ayant été réalisées et des problèmes rencontrés.
Pour la prévention de cet incident à l’avenir, chaque problème rencontré doit faire l’objet d’une recommandation et une implication des personnes ayant rencontrées le problèmes et susceptibles de le résoudre.
Et une autre façon de prévenir certains problèmes, c’est la formation et le partage de sa propre expérience auprès des collaborateurs plus jeunes et moins expérimentés. Il faut apprendre de ses erreurs, mais aussi apprendre aux autres ce que nos propres erreurs nous ont appris.
Dans la même rubrique
17 décembre 2019 – Usage du preseed pour faciliter l’installation de ses serveurs Debian
18 septembre 2019 – Devenir SysAdmin d’une PME - Quelques outils et scanners de vulnérabilités
13 septembre 2019 – Devenir SysAdmin d’une PME - Reprise des billets
14 novembre 2018 – Devenir SysAdmin d’une PME - De l’importance de l’expérience
12 novembre 2018 – Devenir SysAdmin d’une PME - De l’importance du retex suite à un incident
1 Messages
Devenir SysAdmin d’une PME - De l’importance du retex suite à un incident, Nico | 12 novembre 2018 - 11:11 1
Toujours intéressant tes propres retours d’expérience....
Utilises-tu des outils particuliers pour ces "retex" ?
D’ailleurs de façon plus générale, utilises un outil particulier pour gérer l’exploitation d’une infra (suivi des m.a.j, ajout de fonctionnalités, paquet etc...).
Pour gérer les docs d’install, j’utilise dokuwiki mais pour l’exploitation quotidienne, ce n’est pas pratique..