كيف يحد نقص البيانات البشرية من تقدم الذكاء الاصطناعي
ابق على اطلاع بالتحديثات المجانية
ببساطة قم بالتسجيل في الذكاء الاصطناعي myFT Digest – يتم تسليمه مباشرة إلى صندوق الوارد الخاص بك.
إن استخدام البيانات الناتجة عن الكمبيوتر لتدريب نماذج الذكاء الاصطناعي يخاطر بتسريع انهيارها إلى نتائج لا معنى لها، وفقا لبحث جديد يسلط الضوء على التحديات التي تلوح في الأفق أمام التكنولوجيا الناشئة.
قامت شركات الذكاء الاصطناعي الرائدة، بما في ذلك OpenAI وMicrosoft، باختبار استخدام البيانات “الاصطناعية” – المعلومات التي أنشأتها أنظمة الذكاء الاصطناعي لتدريب نماذج لغوية كبيرة (LLMs) أيضًا – حيث وصلت إلى حدود المواد التي صنعها الإنسان والتي يمكنها تحسين عملية القطع. – تقنية الحافة.
تشير الأبحاث المنشورة في مجلة Nature يوم الأربعاء إلى أن استخدام مثل هذه البيانات يمكن أن يؤدي إلى تدهور سريع لنماذج الذكاء الاصطناعي. إحدى التجارب التي استخدمت نص إدخال اصطناعي حول الهندسة المعمارية في العصور الوسطى تحولت إلى مناقشة حول الأرانب بعد أقل من 10 أجيال من المخرجات.
يسلط هذا العمل الضوء على سبب إسراع مطوري الذكاء الاصطناعي إلى شراء كميات كبيرة من البيانات التي أنشأها الإنسان لأغراض التدريب، ويثير تساؤلات حول ما سيحدث بمجرد استنفاد تلك المصادر المحدودة.
وقال إيليا شوميلوف، المؤلف الرئيسي للبحث: “البيانات الاصطناعية مذهلة إذا تمكنا من إنجاحها”. “لكن ما نقوله هو أن بياناتنا الاصطناعية الحالية ربما تكون خاطئة في بعض النواحي. والشيء الأكثر إثارة للدهشة هو مدى سرعة حدوث هذه الأشياء.
تستكشف الورقة ميل نماذج الذكاء الاصطناعي إلى الانهيار بمرور الوقت بسبب التراكم الحتمي وتضخيم الأخطاء من أجيال التدريب المتعاقبة. وترتبط سرعة التدهور بخطورة أوجه القصور في تصميم النموذج وعملية التعلم وجودة البيانات المستخدمة.
تتضمن المراحل الأولى من الانهيار عادةً “فقدان التباين”، مما يعني أن المجموعات السكانية ذات الأغلبية في البيانات تصبح ممثلة تمثيلاً زائدًا بشكل تدريجي على حساب مجموعات الأقليات. في مرحلة الانهيار المتأخرة، قد تنحدر جميع أجزاء البيانات إلى هراء.
وقال شوميلوف، الذي نفذ العمل في جامعة أكسفورد مع زملاء من كامبريدج، وكلية إمبريال كوليدج لندن، وإدنبره: “إن نماذجك تفقد فائدتها لأنها غارقة في كل الأخطاء والمفاهيم الخاطئة التي قدمتها الأجيال السابقة – والنماذج نفسها”. وتورونتو.
ووجد الباحثون أن المشاكل غالبًا ما تتفاقم بسبب استخدام البيانات الاصطناعية المدربة على المعلومات التي تنتجها الأجيال السابقة. بدأت جميع نماذج اللغة التي تم تدريبها بشكل متكرر والتي فحصوها تقريبًا في إنتاج عبارات متكررة.
في حالة جاكرابيت، فحص النص المدخل الأول مبنى برج الكنيسة الإنجليزية خلال القرنين الرابع عشر والخامس عشر. في الجيل الأول من التدريب، قدمت المخرجات معلومات حول البازيليكا في روما وبوينس آيرس. انصرف الجيل الخامس إلى الترجمة اللغوية، في حين ذكر الجيل التاسع أشكالًا أرنبية ذات ألوان ذيل مختلفة.
مثال آخر هو كيف أن نموذج الذكاء الاصطناعي الذي تم تدريبه على مخرجاته الخاصة يشوه مجموعة بيانات من صور سلالات الكلاب، وفقًا لمقال مصاحب في مجلة Nature بقلم إميلي فينجر من جامعة ديوك في الولايات المتحدة.
في البداية، سيطرت الأنواع الشائعة مثل المستردون الذهبيون بينما اختفت السلالات الأقل شيوعًا مثل الدلماسيين. أخيرًا، ستصبح صور المستردات الذهبية نفسها فوضى تشريحية، حيث توضع أجزاء الجسم في المكان الخطأ.
وقال فينغر إن تخفيف المشكلة لم يكن سهلا حتى الآن. إحدى التقنيات التي تم نشرها بالفعل من قبل شركات التكنولوجيا الرائدة هي تضمين “علامة مائية” تشير إلى المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي لاستبعاده من مجموعات بيانات التدريب. وتكمن الصعوبة في أن هذا يتطلب التنسيق بين شركات التكنولوجيا التي قد لا تكون عملية أو مجدية تجاريا.
قال فينغر: “أحد الآثار الرئيسية لانهيار النموذج هو أن هناك ميزة الريادة في بناء نماذج الذكاء الاصطناعي التوليدية”. “قد يكون لدى الشركات التي حصلت على بيانات التدريب من إنترنت ما قبل الذكاء الاصطناعي نماذج تمثل العالم الحقيقي بشكل أفضل.”
اكتشاف المزيد من موقع تجاربنا
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.