Première rédaction de cet article le 7 novembre 2011
Ce lundi 7 novembre 2011, vers 14h05 UTC, grande perturbation de la Force. Des tas de destinations deviennent injoignables sur l'Internet...
Voici par exemple un des graphes montrant une brusque diminution du
trafic (les heures sont des heures locales, pas UTC) : . À noter qu'un second
plantage, moins important, a eu lieu vers 15h30 UTC. On voit bien
l'effet des deux plantages sur ce graphique de DNSmon, qui montre l'impact de la
panne sur les serveurs DNS de
.fr
(le serveur
c.nic.fr
a été le plus impacté) :
Les utilisateurs ne peuvent plus travailler et plein de gens se plaignent.
Le problème venait d'une annonce BGP amusante qui a planté (et fait redémarrer) certains routeurs Juniper. Voir les annonces Twitter d'Absolight et de Neo. Cela ressemble donc beaucoup à des problèmes comme celui de l'attribut 99. Même si c'était plutôt Cisco qui nous avait habitué à ce genre de crashes de grand style.
La bogue ne touchait apparemment que la gamme MX, en version 10.2, 10.3 et certaines 10.4 de JunOS ; Raphaël Maunier me dit que les plus basses versions non affectées sont les 10.4R6, 11.1R4 et 11.2R1). La bogue est apparemment enregistré chez Juniper sous l'identificateur PSN-2011-08-327 (j'ai mis un lien vers un pastebin car le rapport officiel est réservé aux clients de Juniper ; à tout hasard, je garde une copie de PSN-2011-08-327 ici).
Une bonne façon de voir d'un coup d'œil qu'il y a eu une
grande perturbation BGP est de regarder les
archives de RouteViews du mois en cours (merci à Jared Mauch
pour la bonne idée). Pour novembre 2011,
regardez les fichiers updates.20111107.1415.bz2
et
updates.20111107.1430.bz2
(le nom du fichier
donne l'heure en UTC), vingt fois plus gros que la normale et montrant
une avalanche de mises à jour BGP suite au crash de tant de routeurs.
C'est l'occasion de se rappeler que la résilience de l'Internet est un combat permanent. Ainsi, l'un des opérateurs affectés, Level 3 a une part du marché telle que ses pannes entraînent la coupure d'une bonne partie de l'Internet.
Quelques ressources utiles pour les administrateurs réseaux confrontés à ce genre de problèmes :
Autres articles sur cette panne :
Version PDF de cette page (mais vous pouvez aussi imprimer depuis votre navigateur, il y a une feuille de style prévue pour cela)
Source XML de cette page (cette page est distribuée sous les termes de la licence GFDL)