Rogers Communications a déposé une réponse de 39 pages aux questions du régulateur canadien des télécommunications concernant la panne sans précédent de ses réseaux Internet et sans fil, blâmant à nouveau un changement de configuration qui a supprimé un filtre de routage, ce qui a submergé ses routeurs de distribution.

Toutefois, de grandes parties de la version publiée vendredi soir par le Conseil de la radiodiffusion et des télécommunications canadiennes (CRTC) ont été caviardées par le Conseil – y compris l’explication de la cause première – pour des raisons de sécurité ou de concurrence.

Les mesures prises par Rogers pour éviter une panne similaire sont également masquées. « Nous avons développé des mesures très spécifiques, à très court terme, à court terme et à moyen terme, qui seront mises en œuvre dans les jours et semaines à venir », indique le document. Mais la version publique ne les précise pas.

« Plus important encore », ajoute le document, « Rogers examine son processus de « changement, planification et mise en œuvre » pour identifier des améliorations afin d’éliminer le risque d’autres interruptions de service. Celles-ci incluent les étapes suivantes : ». La liste des étapes est noircie dans la version publiée par le CRTC.

Depuis la panne du 8 juillet, de nombreux experts ont noté qu’en avril 2021, le côté sans fil du réseau Rogers était hors service pendant près de 22 heures, ce qui suggère que le transporteur pourrait avoir de sérieux problèmes avec son infrastructure. Dans sa soumission, Rogers affirme que les causes de cette panne – une mise à jour de produit d’un tiers – étaient différentes de l’incident du 8 juillet. La soumission comprend une liste de ce que Rogers a fait depuis le crash de 2021 pour améliorer la résilience du réseau. Cette liste a été masquée.

Par conséquent, le public ne sait pas exactement pourquoi le code de la mise à jour prévue du réseau IP principal de Rogers a causé le chaos – était-ce une simple erreur de syntaxe de codage, un non-respect des normes devops établies, un non-respect des pratiques de test du code sur une plateforme hors ligne ou… ?

Roger indique dans le document que les mises à jour de son réseau IP principal sont effectuées « avec beaucoup de soin ».

Si tel est le cas, on s’explique mal pourquoi le transporteur a remplacé son directeur technologique la semaine dernière.

Ces questions et d’autres pourraient trouver une réponse aujourd’hui lorsque le Comité de l’industrie de la Chambre des communes tient une audience sur la panne depuis 11 heures, heure de l’Est. L’audience est télévisée. Des fonctionnaires fédéraux, dont des représentants du CRTC et Rogers, témoigneront.

Rogers a offert ce récit de ce qui s’est passé le 8 juillet :

La mise en œuvre de la sixième phase de sa mise à jour de maintenance a commencé à 2 h 27 heure de l’Est. À 4 h 43, un changement de codage spécifique a été introduit dans ses trois routeurs de distribution, ce qui a déclenché la panne du réseau central IP de Rogers deux minutes plus tard.

« Le changement de configuration a supprimé un filtre de routage et a permis à toutes les routes possibles vers Internet de passer par les routeurs. En conséquence, les routeurs ont immédiatement commencé à propager des volumes anormalement élevés de routes à travers le réseau central. Certains équipements de routage du réseau ont été inondés, ont dépassé leurs niveaux de capacité et n’ont alors plus été en mesure d’acheminer le trafic, provoquant l’arrêt du traitement du trafic par le réseau central commun. Par conséquent, le réseau de Rogers a perdu la connectivité à Internet pour tout le trafic entrant et sortant des réseaux sans fil et filaire pour nos clients consommateurs et entreprises. »

« Comme de nombreux grands fournisseurs de services de télécommunications (FST), Rogers utilise un réseau central commun, essentiellement une infrastructure de réseau IP, qui prend en charge tous les services sans fil, filaires et d’entreprise. Le noyau commun est le cerveau du réseau qui reçoit, traite, transmet et connecte tout le trafic Internet, voix, données et TV pour nos clients. »

« Encore une fois, comme d’autres FST dans le monde, Rogers utilise un réseau central de fournisseurs mixtes composé d’équipements de routage IP provenant de plusieurs fabricants de premier niveau. Il s’agit d’une pratique courante dans l’industrie, car différents fabricants ont des atouts différents en matière d’équipement de routage pour la passerelle Internet, le routage central et de distribution. Plus précisément, les deux fournisseurs de routage IP utilisés par Rogers ont leur propre conception et approche pour gérer le trafic de routage et pour protéger leur équipement contre la surcharge. Dans le réseau de Rogers, un fabricant de routage IP utilise une conception qui limite le nombre de routes présentées par les routeurs de distribution aux routeurs principaux. L’autre fournisseur de routage IP s’appuie sur des contrôles au niveau de ses routeurs principaux. L’impact de ces différences dans la conception de l’équipement et les protocoles est au cœur de la panne subie par Rogers. »

Le résultat a été que le réseau de Rogers a perdu la connectivité interne et vers Internet pour tout le trafic entrant et sortant, à la fois pour les réseaux sans fil et filaires pour les consommateurs et les entreprises.

Dans une lettre au CRTC accompagnant le document, Ted Woodhead, directeur des affaires réglementaires et gouvernementales de Rogers, a écrit que « la panne de réseau subie par Rogers était tout simplement inacceptable. Nous avons manqué à notre engagement d’être le réseau le plus fiable au Canada ».

Pour plus de détails, l’article original (en anglais) est disponible sur IT World Canada, une publication sœur de Direction informatique.

