مثل افتقادها إلى مصادر متنوعة للمعرفة والجانب الإحصائي والعلاقة السببية

قيود تحيط بعمل خوارزميات التنبؤ المعتمدة على بيانات ضخمة

اعتمدت الخوارزمية على دراسة 11 ألف تغريدة تتضمن تغريدتين للشخص نفسه تروجان للرابط نفسه. رويترز

من المشكلات المحيطة بدور البيانات الضخمة، والابتكارات الجديدة عموماً، المبالغة في تقدير إنجازاتها، وما يمكن أن تقوم به، فمثلاً على الرغم مما تحققه خوارزميات التنبؤ من نتائج رائعة تفوق البشر، فإن عملها تحاصره قيود عدة، منها أن النجاح في التنبؤ لا يعني بالضرورة النجاح في إنشاء نسخة ناجحة من الشيء مثل «تغريدة»، أو منشور يحظى بالانتشار.

ووفقاً لتقرير نشرته صحيفة «ذا نيويورك تايمز» الأميركية، فقد طور ثلاثة من علماء الكمبيوتر خوارزمية يُمكنها التنبؤ بأي التغريدات في موقع التدوين المُصغر «تويتر» ستحظى بعدد أكبر من «إعادة التغريد» أو «ريتويت»، وحققت الخوارزمية نتائج مُثيرة للإعجاب.

الخوارزمية خطوات رياضية

الخوارزمية هي مجموعة من الخطوات الرياضية والمنطقية والمتسلسلة اللازمة لحل مشكلة ما.

وسميت الخوارزمية بهذا الاسم نسبة إلى العالم المسلم الطاشقندي الأصل، أبوجعفر محمد بن موسى الخوارزمي، الذي ابتكرها في القرن التاسع الميلادي.

والكلمة المنتشرة في اللغات اللاتينية والأوروبية هي «algorithm»، وفي الأصل كان معناها يقتصر على خوارزمية لتراكيب ثلاثة فقط، هي: التسلسل والاختيار والتكرار.

ومع استفادتها من تحليلات البيانات الضخمة، إلا أن هذه الخوارزمية أظهرت حدود دور البيانات الضخمة وتحليلاتها، فأمكنها بسهولة التنبؤ بأي التغريدات ستحظى بـ«إعادة التغريد»، دون أن تتمكن من كتابة واحدة ناجحة يُقبل المستخدمون على إعادة تغريدها.

ويمكن تفسير ذلك، بمراجعة الطريقة التي طُورت بها الخوارزمية، فقد استخدمت بيانات من مجموعة تضم 11 ألف تغريدة، تضم تغريدتين للشخص نفسه حول الرابط نفسه، وذلك بهدف التوصل إلى أنماط الكلمات التي تُساعد في جذب المستخدمين لإعادة نشر التغريدة «ريتويت»، ومن ثم السعي لاكتشاف هذه الأنماط في البيانات الجديدة.

وعادةً ما تُبنى الخوارزميات الذكية المعتمدة على البيانات الضخمة بالطريقة نفسها، فتستخدم مجموعات كبيرة من البيانات، ساحة تدريب، ثم تعمل البيانات الجديدة ساحة لاختبار مدى كفاءة ودقة تحليلاتها.

وانتهى الباحثون إلى خوارزمية أمكنها التنبؤ بالتغريدت التي سيتم إعادة نشرها بشكل صحيح في 67% من الحالات، مقارنة مع نسبة نجاح 61% حققها البشر.

وتبدو النتيجة لافتة للنظر، لاسيما عند احتساب القيود التي تُحدد عمل الخوارزمية، فاعتمادها على 11 ألف تغريدة للتعلم أمر واقعي وصحيح، إلا أنها تفتقر إلى أي مصدر آخر للمعرفة.

وعلى سبيل المثال، لا يتوافر لدى «خوارزمية التنبؤ»، الكم الضخم من المعلومات السياقية التي يجمعها ويُراكمها كل شخص على امتداد سنوات عمره، مثل المعلومات عن العادات الاجتماعية، كما أنها لا تحظى بحس الفكاهة، ولا تعي ماهية التلاعب بالكلمات، ولا تستطيع التفرقة بين كلمات تُحول العبارة من جملة مهذبة إلى أخرى محرجة أو عدوانية.

وبسبب ذلك، تعتمد «خوارزمية التنبؤ» كلياً على سمات خام وعامة مثل طول التغريدة، وتضمنها كلمات معينة مثل «ريتويت» و«من فضلك»، واحتوائها على أدوات التنكير. لكن هذا لا ينفي أنها من خلال ما يتوافر لديها من إمكانات قليلة، فقد حققت نتائج لافتة، الأمر الذي يُشير إلى واحدة من معجزات البيانات الضخمة، فتعثر الخوارزميات على معلومات وإشارات مهمة في نواحٍ غير متوقعة.

ومع ذلك، فإن الإشادة بنجاح الخوارزميات لا يعني أن البشر في طريقهم للترحيب بالآلات التي ستقوم بدور «السيد المُسيطر»، ففي حين نجحت نتائج «خوارزمية التنبؤ بإعادة التغريد» في إثارة الإعجاب، إلا أنها تُعاني عدداً من نقاط الضعف القاتلة، وتشترك في بعضها مع بقية خوارزميات التنبؤ.

ومن الأمور الأساسية التي ينبغي فهمها في هذا الصدد، أن مجرد نجاح الخوارزمية في توقع أن شيئاً ما سيكون جيداً، لا يعني بالضرورة نجاحها في إنشاء النسخة الجيدة منه، وهو ما ينطبق بوضوح على «خوارزمية التنبؤ بإعادة التغريد»، إذ نجحت في توقع أي التغريدات ستحظى بمرات «ريتويت» أكثر، إلا أنها لا تستطع كتابة واحدة تتحقق فيها هذه الشروط.

وتتضمن العقبات التي تعترض خوارزميات التنبؤ واحدة تتعلق بالجانب الإحصائي، فالارتباط بين أمر وآخر لا يعني دائماً تسببه في حدوثه، فربما لا يكون لتعديل متغير مهم في عملية التنبؤ أي تأثير، وعلى سبيل المثال قد يُعتبر عدد موظفي إحدى الشركات ممن يكتبون سيرهم الذاتية مُؤشراً إلى اتجاه الشركة للإفلاس، إلا أن إيقاف هذا الأمر لا يبدو استراتيجية ناجحة لتجنب الدائنين.

وقد تظهر مشكلة «العلاقة السببية» على نحوٍ غامض، فمثلاً أظهرت «خوارزمية التنبؤ بإعادة التغريد»، أن من المرجح أن تحظى التغريدات الأطول بمرات أكثر من «إعادة التغريد»، وقد يعني ذلك بالتبعية أن على المستخدم كتابة تغريدات أطول كي تحظى بالانتشار. لكن الواقع أن أهمية طول التغريدة قد ترجع لتضمنها قدراً أكبر من المحتوى، فيكون المقصد أن يُوفر الكاتب قدراً أوفى من المحتوى في تغريدته وليس مجرد إطالتها.

ومن بين العقبات الأخرى كيفية توقع الأمور المثيرة لاهتمام الآخرين، فالندرة والجدة تسهمان في إثارة الاهتمام أو على الأقل في جذب الانتباه، لكن قيمة هذه اللأشياء تتراجع عندما يشيع استخدامها بين الناس، فعندما يقوم عدد قليل من الأشخاص بشيءٍ ما قد ينجح في جذب الأنظار، إلا أن شيوعه قد يجعله أمراً اعتيادياً لا جديد فيه.

وبتطبيق ذلك على الخوارزمية الخاصة بالتنبؤ بإعادة نشر التغريدات، يظهر أن استخدام كلمات مثل «ريتويت» و«من فضلك»، قد ينجح في حثّ المستخدمين على إعادة نشر تغريدة، لكن انتشارهما في كثير من التغريدات قد يُقلل من تأثيرهما.

ولا يُقصد من هذه القيود أن تُقلل من قوة الخوارزميات التنبؤية، لكنها فقط تُذكر بأهمية الاعتدال في التوقعات، بحيث لا يُنظر إلى التقنيات المتقدمة على أنها أدوات سحرية، ما يعني بكلمات أخرى عدم المبالغة في تقدير ما يُمكن للبيانات الضخمة أن تُنجزه.

ويقود الإفراط في التقدير إلى استنتاجات بعيدة عن الواقع مثل القول إن أجهزة الكمبيوتر الآلية ستحتل وظائف البشر قريباً، أو الخوف من أن الشركات ستعرف عن الأشخاص قريباً ما يكفي من المعلومات لدفعهم إلى شراء أي شيء، أو توقع أشياء لاتزال بعيدة عن التحقق، مثل تأليف أجهزة الكمبيوتر للأفلام.

وفي نهاية المطاف، تُعد الأدوات الجديدة للبيانات الضخمة مُدهشة بالفعل، لكنها ليست سحرية، ومثلها كالابتكارات العظيمة السابقة التي سبقتها، سواء كانت المضادات الحيوية أو الكهرباء وحتى أجهزة الكمبيوتر نفسها، توجد حدود لما تُجيد القيام به، وفي ما وراء ذلك تنجح في إنجاز القليل.

تويتر