دراسة تستخدم بيانات «ويكيبيديا» للتنبؤ بانتشار «الأنفلونزا»
يسعى المتخصصون بعلم الأوبئة للتوصل إلى وسائل تسمح لهم بالتنبؤ الدقيق بانتشار الأمراض على غرار توقعات خبراء الأرصاد الجوية لحالة الطقس، وحالياً يتطلع البعض إلى البيانات المتوافرة على الإنترنت من محركات البحث ومواقع الإعلام الاجتماعي، باعتبارها وسيلة أساسية أو مُكملة لمتابعة انتشار الأمراض في الوقت الحقيقي.
وسبق أن جرت العديد من المحاولات للتنبؤ بانتشار الأنفلونزا التي تُصيب سنوياً، بحسب «مراكز السيطرة على الأمراض والوقاية منها» في الولايات المتحدة، نسبةً تراوح بين 5 و20% من الأميركيين، وتتسبب في وفاة ما بين 3000 و49 ألف شخص في كل عام، فضلاً عن تأثيرات عدة على الاقتصاد بسبب التغيب عن العمل، وتكاليف الرعاية الصحية، الأمر الذي يُؤكد أهمية التنبؤ الدقيق بالمرض لتحسين الطريقة التي يستعد بها المجتمع لمواجهته.
متابعة المرض
ويُمثل السبيل الأساسي حالياً لمتابعة الأنفلونزا في الولايات المتحدة إبلاغ المسؤولين عن الرعاية الصحية العامة عن نسب المرضى الذين يترددون على المستشفيات والعيادات كل أسبوع، ويُعانون أعراضاً شبيهة بالانفلونزا، مثل تجاوز درجة حرارتهم 37.7 درجة مئوية، وسعال دون وجود أي تفسير آخر باستثناء الأنفلونزا.
لكن يعيب هذه الطريقة دقتها المحدودة؛ فعلى سبيل المثال تغفل عدد الأشخاص المصابين بالأنفلونزا دون أن يتجهوا للمستشفيات، وتحتسب الأشخاص الذين واجهوا أعراضاً شبيهة بالأنفلونزا دون أن يكونوا مصابين بها بالفعل. كما تواجه هذه الطريقة مشكلة بطء الشبكة التي يجري من خلالها الإبلاغ عن الإصابات، ما يجعل معلوماتها متأخرة عن الواقع عادةً بأسابيع عدة.
ودفع ذلك «مراكز السيطرة على الأمراض والوقاية منها» للسعي وراء أساليب جديدة لمراقبة انتشار الأنفلونزا في الوقت الحقيقي. وفي الوقت نفسه، تستخدم شركة «غوغل» الأميركية بيانات استخدام محركها البحثي للتنبؤ بانتشار الأنفلونزا في أجزاء مختلفة من العالم، باحتساب تفاوت مستويات البحث عن أعراض المرض. وترددت نتائج «غوغل» بين النجاح والإخفاق. وكان مما عاب منهجها عدم توفير «غوغل» للبيانات لجهات أخرى، ما يُقلل من مستويات الشفافية اللازمة لهذا النوع من البحوث.
موسوعة «ويكيبيديا»
وكانت «مراكز السيطرة على الأمراض والوقاية منها» أطلقت في نوفمبر من عام 2013 منافسةً استهدفت التوصل لأفضل السبل للتنبؤ بموسم الأنفلونزا 2013-2014 باستخدام بيانات من الإنترنت. وفكر فريق من الباحثين من «مختبر لوس ألاموس الوطني» استخدام بيانات موسوعة «ويكيبيديا» حول زيارات المقالات التي تتناول الأنفلونزا وأعراضها، باعتبارها مؤشراً إلى انتشار المرض.
واعتبر فريق البحث، التفاوت في أعداد المستخدمين الذين يطلعون على مقالات الموسوعة حول الأنفلونزا، مؤشراً الى انتشار المرض، كما يُميز «ويكيبيديا» توافر بياناتها لأي جهة مهتمة، ما يمنحها قدراً أكبر من الشفافية، إضافة إلى توافرها خلال المستقبل المنظور.
واستخدم الباحثون بيانات سنوات سابقة عن زيارات المقالات المتعلقة بالأنفلونزا، لتدريب خوارزمية للتعلم الآلي على التعرف إلى الارتباط مع بيانات الأمراض الشبيهة بالأنفلونزا التي جمعتها «مراكز السيطرة على الأمراض والوقاية منها»، ثم استخدموا الخوارزمية للتنبؤ بمستويات المرض في الوقت الحقيقي خلال موسم الأنفلونزا للعام الماضي.
وقدمت النتائج مؤشراً جيداً عن البيانات الفعلية التي جمعتها «مراكز السيطرة على الأمراض والوقاية منها» ووفرتها لاحقاً. وتوصلت الدراسة إلى وجود ارتباط كبير بين سجلات الدخول لمقالات «ويكيبيديا» المتعلقة بالأنفلونزا وسجلات الأمراض الشبيهة بالأنفلونزا، ما أتاح التوقع الدقيق بانتشار المرض، قبل أن تتاح البيانات الحقيقية بأسابيع عدة.
إخفاق في التنبؤ
ومع ذلك، أشارت الدراسة إلى إخفاق النموذج إلى حدٍ ما في التنبؤ بنهاية موسم الأنفلونزا؛ إذ خفض بشكلٍ ملحوظ من التنبؤات. وقد يرجع ذلك إلى إحجام الجمهور عن العودة إلى مقالات «ويكيبيديا» عن الأنفلونزا حال تكررت إصابتهم، أو تعرضوا لسلالة أخرى من الأنفلونزا، وهو ما يُشكل مصدراً أساسياً للإصابة في نهاية الموسم. وبحسب ما أوردت الدراسة: «نظراً لأن نموذجنا لا يحتسب إعادة التعرض للعدوى أو السلالات المتعددة للأنفلونزا نهاية فترة الوباء، فلم يجرِ التنبؤ جيداً بنهاية الوباء بعد مرور ذروة موسم الانفلونزا». لكن ذلك لا ينفي أهمية الدراسة، التي حملت عنوان «التنبؤ بموسم الأنفلونزا 2013-2014 باستخدام ويكيبيديا»، كخطوةٍ مهمة تجاه التوصل لنظام مفصل ودقيق للتنبؤ بالأنفلونزا على غرار نظم التنبؤ بحالة الطقس، كما يُميز نموذج الدراسة تحديد النقطة التي يُخالف فيها البيانات الفعلية، ما يسمح بتعديله في الوقت الحقيقي لوضع الاختلافات في الاعتبار.
وفي كل الأحوال، لايزال ينتظر مجال التنبؤ بالأمراض الكثير من العمل والتطور، قبل أن يُسهِم فعلياً في تحسين طرق الاستعداد للأوبئة، ويتجاوز التقديرات التقريبية المستخدمة في الوقت الحاضر التي غالباً ما تقود إلى اختلاف مستويات الاستعداد، لتصبح أقل أو أكبر كثيراً من القدر المطلوب.