أدى انقطاع تكنولوجيا المعلومات العالمي خلال العطلة الماضية بسبب تحديث برمجي خاطئ إلى تسليط الضوء على الطبيعة المترابطة والهشة في كثير من الأحيان للبنية التحتية لتكنولوجيا المعلومات الحديثة، وقد أظهر هذا الحدث كيف يمكن لنقطة فشل واحدة أن تتسبب في عواقب بعيدة المدى.
التحديث المسبب للمشكلة التكنولوجية العالمية
كان الانقطاع مرتبطًا بتحديث تلقائي واحد أُطلق على Crowdstrike Falcon، وهو أداة أمان سيبراني شائعة الاستخدام لدى المنظمات الكبيرة، وقد تسبب هذا التحديث في تعطل أجهزة الكمبيوتر التي تعمل بنظام Microsoft Windows حول العالم.
منذ ذلك الحين قامت CrowdStrike بإصلاح المشكلة من جانبها وبينما تمكنت العديد من المنظمات من استئناف العمل الآن، سيستغرق الأمر بعض الوقت لفِرَق تكنولوجيا المعلومات لإصلاح جميع الأنظمة المتضررة – حيث يجب أن يتم بعض العمل يدويًا.
كيف يؤثر هذا الخلل التكنولوجي؟
تعتمد العديد من المنظمات على نفس مقدمي الخدمات السحابية وحلول الأمان السيبراني، والنتيجة هي نوع من "الثقافة الرقمية الموحدة".
بينما يعني هذا التوحيد أن الأنظمة الحاسوبية يمكنها العمل بكفاءة وتكون متوافقة على نطاق واسع، فإنه يعني أيضا أن مشكلة واحدة يمكن أن تنتشر عبر العديد من الصناعات والجغرافيا، وكما رأينا الآن في حالة CrowdStrike، يمكن أن تنتشر حتى حول العالم بأسره.
التشابك والتعقيد في البنية التحتية الحديثة
تكون البنية التحتية لتكنولوجيا المعلومات الحديثة مترابطة ومتداخلة بشكل كبير، وإذا فشل مكون واحد، يمكن أن يؤدي ذلك إلى وضع يتسبب فيه المكون الفاشل في سلسلة من التفاعلات التي تؤثر على أجزاء أخرى من النظام.
مع ازدياد تعقيد البرمجيات والشبكات التي تعمل فيها، يزداد احتمال التفاعلات غير المتوقعة والأخطاء، ويمكن أن يكون لتحديث صغير عواقب غير مقصودة وينتشر بسرعة عبر الشبكة.
دور مايكروسوفت في الانقطاع
عندما بدأت أجهزة الكمبيوتر التي تعمل بنظام Windows في كل مكان في التعطل مع رسالة "شاشة الموت الزرقاء"، أشارت التقارير الأولية إلى أن الانقطاع ناجم عن مايكروسوفت.
في الواقع، أكدت مايكروسوفت أنها عانت من انقطاع في خدمات السحابة في منطقة وسط الولايات المتحدة، والذي بدأ حوالي الساعة 6 مساءً بتوقيت شرق الولايات المتحدة يوم الخميس، 18 يوليو 2024.
الانقطاع التكنولوجي وتأثيراته الواسعة
أثر هذا الانقطاع على مجموعة من العملاء الذين يستخدمون خدمات Azure المختلفة، علماً أن Azure هي منصة خدمات السحابة المملوكة لمايكروسوفت.
كان لانقطاع Azure تأثيرات واسعة، حيث تعطل الخدمات عبر قطاعات متعددة، بما في ذلك شركات الطيران والتجزئة والبنوك والإعلام، ولم يقتصر الأمر على الولايات المتحدة فقط، بل تأثر أيضًا دوليًا في دول مثل أستراليا ونيوزيلندا، كما تأثرت خدمات Microsoft 365 المختلفة، بما في ذلك PowerBI وMicrosoft Fabric وTeams.
الدروس المستفادة من حادثة الانقطاع التكنولوجي
يجب على الشركات استخدام استراتيجية السحابة المتعددة: توزيع بنيتها التحتية لتكنولوجيا المعلومات عبر مقدمي خدمات سحابية متعددين، وبهذه الطريقة، إذا تعطل مزود واحد، يمكن للآخرين دعم العمليات الحيوية.
يمكن للشركات أيضًا ضمان استمرار عملها عن طريق بناء تكرارات في أنظمة تكنولوجيا المعلومات الخاصة بها، فإذا تعطل مكون واحد، يمكن أن يتولى الآخرون مهمته، يشمل ذلك وجود خوادم احتياطية، مراكز بيانات بديلة، وآليات "التبديل الفوري" التي يمكنها التحول بسرعة إلى الأنظمة الاحتياطية في حالة حدوث انقطاع.
التحضير للطوارئ
يمكن أن تقلل أتمتة العمليات الروتينية في تكنولوجيا المعلومات من مخاطر الخطأ البشري، والذي يعد سببًا شائعًا للانقطاعات، ويمكن للأنظمة الآلية أيضًا مراقبة المشكلات المحتملة ومعالجتها قبل أن تؤدي إلى مشاكل كبيرة.
تدريب الموظفين على كيفية الاستجابة عند حدوث انقطاع يمكن أن يدير الوضع الصعب ويعيد الأمور إلى طبيعتها، ويشمل ذلك معرفة من يجب الاتصال به، وما هي الخطوات التي يجب اتخاذها، وكيفية استخدام إجراءات العمل البديلة.
من غير المحتمل أن ينقطع الإنترنت العالمي بالكامل بسبب الطبيعة الموزعة واللامركزية للبنية التحتية للإنترنت، خاصةً أن لديها مسارات وأنظمة متعددة زائدة، فإذا فشل جزء، يمكن تحويل الحركة عبر شبكات أخرى.
ومع ذلك فإن إمكانية حدوث اضطرابات أكبر وأكثر انتشارًا من انقطاع CrowdStrike موجودة.
موقع The Conversation