Je suis Charlie

Autres trucs

Accueil

Seulement les RFC

Seulement les fiches de lecture

Mon livre « Cyberstructure »

Ève

Un exemple de problème dans BGP

Première rédaction de cet article le 24 juillet 2015


« On » me demande parfois quels outils utiliser pour analyser un problème BGP quand on n'a pas accès à un routeur de la DFZ (d'ailleurs, certaines techniques ici peuvent servir même dans ce cas). Voici un exemple avec la panne de plus de deux heures de Swift hier 22 juillet.

Point de départ, la machine 204.13.164.192 n'est plus joignable. Bête panne d'un serveur, comme cela arrive tout le temps sur l'Internet ? Non, cette fois, c'est plus rigolo, le préfixe IP 204.13.164.0/24 qui l'englobe a disparu de la table de routage mondiale. De même que d'autres préfixes du même opérateur, comme 204.8.32.0/24 (qui héberge notamment les serveurs DNS de swiftco.net, rendant ce nom de domaine inutilisable ; on ne le répétera jamais assez, il faut mettre ses serveurs DNS dans plusieurs réseaux différents).

Comment voir ce que contient cette table de routage ? Si on a accès à un routeur qui a une table complète, on peut le faire soi-même mais, si ce n'est pas le cas, on peut utiliser un des innombrables looking glasses qui vous donnent un accès indirect à ces routeurs. Par exemple, voici ce que donne celui de Hurricane Electric une fois la panne réparée (on voit les routes pour le 204.8.32.0/24, pendant la panne, on avait « None of the BGP4 routes match the display condition ») : swift-he-lg.png

Qu'on utilise ce looking glass ou bien qu'on passe par un de ses routeurs à soi, on n'a qu'une vision immédiate. Il serait intéressant de pouvoir regarder le passé, notamment si on a été prévenu trop tard et qu'on veut investiguer a posteriori. C'est ce que permet RIPEstat qui fournit tout un tas d'outils d'analyse (qui ne sont pas toujours d'un abord facile). L'un des plus simples est le BGP Update activity. Voici ce qu'il affichait juste après la réparation : swift-ripestat.png

On y voit une grosse activité BGP vers 0810 UTC au moment où le préfixe, pour une raison inconnue, était retiré. Cette activité comporte des retraits (withdraw) mais aussi des annonces (announce). C'est normal, les routeurs BGP réagissent au retrait en annonçant des routes alternatives pendant une minute ou deux, le temps que tous réalisent que le préfixe est bien retiré, qu'il n'y a pas d'alternative. Puis on voit une autre période d'activité vers 1045 UTC au moment où ça repart. Celle-ci ne comporte que des annonces.

Version PDF de cette page (mais vous pouvez aussi imprimer depuis votre navigateur, il y a une feuille de style prévue pour cela)

Source XML de cette page (cette page est distribuée sous les termes de la licence GFDL)