تحليل البيانات كان يتم بالتدخل اليدوي بوساطة خبراء وعلماء ويستغرق وقتاً طويلاً. من المصدر

اختصار وقت تحليل البيانات الضخمـة من 8 أشهر إلى 8 أيام

توصل باحثون أميركيون إلى تقنية جديدة تختصر وقت إنجاز التحليلات المطلوبة على البيانات الضخمة المتراكمة لدى المؤسسات والشركات، من ثمانية أشهر إلى ثمانية أيام أو أقل، وذلك في مختلف التخصصات والمجالات، وعبر سلاسل زمنية طويلة أو قصيرة، مع المحافظة على دقة وسلامة التحليلات، وما يبنى عليها من تنبؤات أو توقعات تخص عمل هذه المؤسسات وقراراتها قصيرة أو بعيدة المدى.

مشكلات التنبؤ

وصف أستاذ الذكاء الاصطناعي في معمل الدفع النفاث بوكالة الفضاء الأميركية، الدكتور كيري واجستاف، نتائج البحث، التي توصل إليها الفريق البحثي في معهد «ماساشوستس» الأميركي للتنقية «إم آي تي»، بأنها خطوة كبيرة باتجاه تمكين العاملين على البيانات الضخمة من استعراض وتوضيح مشكلات التنبؤ بطريقة معيارية يمكن مشاركتها مع محللين آخرين، مشيراً إلى أن هذا يمكن أن يقود إلى تحسين التعاون بين الخبراء في أي مجال من جهة وتحليلات البيانات من جهة أخرى.

وأعلن فريق بحثي يعمل في معهد «ماساشوستس» الأميركي للتقنية «إم آي تي»، عن التقنية الجديدة خلال فعاليات المؤتمر الدولي لعلوم البيانات والتحليلات المتقدمة، الذي نظمه معهد مهندسي الكهرباء والإلكترونيات «آي 3 إي»، أخيراً، في مدينة مونتريال الكندية.

وجاء الإعلان هذا العام استكمالاً لبحوث قدمها الفريق نفسه أمام المؤتمر في دورته من العام الماضي. ويضم الفريق الباحث الرئيس في معمل المعلومات ونظم القرار المشرف العام على البحوث، الدكتور كاليان فيرماشنيني، وطالبَي درجة الماجستير، ماكس كانتر وبنجامين شريك، اللذين شاركا بورقة بحثية في المؤتمر حول التقنية الجديدة.

القيمة الأساسية

ووفقاً للمعلومات التي نشرها موقع معهد «إم آي تي» mit.edu حول هذه التقنية، فإن القيمة الأساسية للبحث الجديد تتمثل في تقديم تقنية قادرة على ميكنة العمليات والخطوات المستخدمة في تحليل البيانات الضخمة، من إعداد البيانات إلى التحليل، وحتى توصيف المشكلات التي قد تكون التحليلات قادرة على حلها، ومن ثم استخلاص وعرض التنبؤات والتوقعات والتوصيات أو القرارات.

ولتنفيذ ذلك، تعمل التقنية الجديدة على توفير أو عرض الأشياء المثيرة للاهتمام أمام علماء البيانات داخل المؤسسات والشركات التي تملك بيانات ضخمة متجددة على مدار اليوم، حتى يستطيعوا معالجة جميع وضعيات البيانات بسرعة أكبر، وبالتالي تقليل الوقت بين الحصول على البيانات وهي في صورتها الخام الأولية، والإنتاج الفعلي للقيمة منها.

«لغة شريك كاليان»

وقدم الفريق البحثي تفاصيل تقنية وعملية كاملة أمام المؤتمر، تشمل توصيفاً لكل أجزاء التقنية الجديدة ومنهجية عملها، وذلك من خلال ورقتين بحثيتين، إذ وصفت الورقة الأولى إطار العمل العام لتحليل البيانات متفاوتة الوقت، وقسمت عملية التحليل إلى ثلاث مراحل، الأولى وضع علامات على البيانات، أو تصنيف النقاط البارزة في البيانات، حتى يمكن تغذيتها في نظام تعلم الآلة، والثانية تجزئة البيانات أو تحديد الوقت الذي تكون فيه متوالية من نقاط البيانات ذات صلة بمشكلة ما، فيما كانت المرحلة الثالثة «توسيم» البيانات أو صبغها بسمات تميزها، وهي الخطوة التي تتم بالنظام الذي عرضه الباحثون العام الماضي.

أما الورقة البحثية الثانية، فقدمت شرحاً وتوصيفاً كاملاً للغة جديدة متخصصة في توصيف مشكلات تحليلات البيانات، وإنجاز تحديد جيد لمشكلات التنبؤ. وأطلق الباحثون عليها «لغة شريك كاليان».

وأكد الباحثون أن هذه اللغة الجديدة تعد من العوامل الأساسية التي تخفض وقت توصيف وتحليل البيانات من أشهر إلى أيام، ومعها مجموعة من الخوارزميات أو النماذج الرياضية التي تعيد تلقائياً تجميع البيانات بطرق مختلفة، لتحديد أي من أنماط مشكلات التنبؤ قد تكون البيانات مفيدة في حلها.

تغيير التعامل مع البيانات

وقال رئيس الفريق، الدكتور كاليان فيرماشنيني، إن «هذا العمل حول مشكلات تحليل البيانات الحقيقية يغير تماماً طريقة التعامل مع البيانات الضخمة، فالطريقة المعتادة أن الخبراء في المجال وخبراء البيانات يجلسون حول طاولة لأشهر عدة لتحديد مشكلات التنبؤ، وتوصيف البيانات، ووضع أسس وضع العلامات عليها، وصبغها بالسمات المناسبة إلى غير ذلك من خطوات تستغرق من ستة إلى ثمانية أشهر».

وأضاف «لذلك فإن ميكنة هذه العمليات جميعاً، وجعلها تتم بصورة تلقائية باستخدام التقنية الجديدة، يمكن أن تنجز في أيام ما كان من المعتاد أن يستغرق أشهراً، وينتهي بإنتاج نموذج يتنبأ بالأحداث المستقبلية بناء على الملاحظات الحالية».

مثال للتوضيح

ولمزيد من الشرح والتوضيح، قدم الفريق مثالاً على ما يمكن أن تقوم به التقنية الجديدة في العمل، وبين أنه بافتراض أن هناك باحثاً يعرض بيانات الرسم الكهربائي للمخ، لعدد من مرضى الصرع، وطلب منه تحديد الأنماط الواردة بهذه البيانات التي يمكن أن تعد إشارة على بداية نوبة الصرع، ففي هذه الحالة فإن الخطوة الأولى للتعامل مع البيانات تكون تحديد النتوءات التي تشير إلى النوبة الصرعية، فيما تكون الخطوة الثانية استخلاص جزء من بيانات الرسم الكهربائي للمخ، التي تسبق كل نوبة صرعية، ويتم بعد ذلك وضع علامات على الأجزاء المختلفة من البيانات، سواء كانت تسبق النوبة أو لا، وهي المعلومة التي يمكن أن يستخدمها نظام تعلم الآلة لتحديد الأنماط التي تشير إلى بداية النوبة.

توصيف المشكلات

وأشار الفريق إلى أن كل هذه الخطوات كانت تتم بالتدخل اليدوي بوساطة خبراء وعلماء البيانات، وتستغرق وقتاً طويلاً، لكن التقنية الجديدة تقوم بها جميعاً وبسرعة كبيرة.

وبالإضافة إلى ذلك حدد الباحثون أيضاً إطار عمل رياضياً عام لتوصيف مشكلات وضع العلامات وتجزئة البيانات، مشيرين إلى أنه بمجرد عمل مواصفات معينة تقوم خوارزمية التقنية الجديدة بإنجاز عملية التجزئة ووضع العلامات المناظرة لها تلقائياً.

«فيتشر لاب»

إلى ذلك، ذكر موقع معهد «إم آي تي» أن أعضاء فريق البحث أسسوا شركة أطلقوا عليها «فيتشر لاب»، لتسويق تقنية تحليلات البيانات التي توصلوا إليها تجارياً، إذ يعمل كانتر رئيساً تنفيذياً لها بعدما حصل على درجة الماجستير، فيما يشغل شريك منصب رئيس باحثي البيانات، وكلاهما لايزال في مجموعة «كاليان» بمعهد «إم آي تي».

الأكثر مشاركة