التحدي الكبير التالي في تطوير الذكاء الاصطناعي التوليدي سيكون البيانات، والحصول على ما يكفي من المدخلات البشرية لتكرار الاستجابات البشرية.
مما قد يعني أن المنصات الاجتماعية في وضع أفضل لقيادة هذه المهمة، حيث تتمتع روبوتات الدردشة المدعومة بالذكاء الاصطناعي من Meta وxAI بإمكانية الوصول المباشر إلى مدخلات البيانات البشرية أكثر من أي شخص آخر. تتمتع Google أيضًا بإمكانية الوصول إلى استعلامات البحث ومدخلات المراجعة. ولكن اللاعبين الصغار، الذين لا يتمتعون بمثل هذا الوصول، قد يُتركون في العراء، حيث يتطلع الناشرون إلى تأمين المحتوى الخاص بهم، من أجل التحكم في الوصول، وتحقيق أقصى قدر من الربح.
أحدث دفعة على هذه الجبهة هي أ عريضة موقعة من آلاف الفنانين المشهورين والذي يدعو إلى منع الاستخدام غير المرخص للأعمال الإبداعية لتدريب الذكاء الاصطناعي التوليدي. الناشر Penguin Random Home هو أيضًا اتخاذ موقف ضد استخدام أعمال مؤلفيها للتدريب على الذكاء الاصطناعي، بينما يتم الآن تنظيم العديد من المنشورات الإخبارية صفقات الترخيص الرسمية مع مطوري الذكاء الاصطناعي الأفراد لإخراجهم.
وإذا تم تنفيذ القواعد التنظيمية الرسمية نتيجة لهذا التحول، والتي تضمن بحق أن أصحاب حقوق الطبع والنشر قادرون على الاستفادة من أعمالهم المرخصة، فإن هذا من شأنه أن يحد من الوصول إلى مدخلات البيانات الضخمة اللازمة لتدريب نماذج الذكاء الاصطناعي. الأمر الذي سيترك المطورين الصغار أمام خيارات سيئة أو أسوأ: إما أن يتخلصوا من أي بيانات يمكنهم الحصول عليها من شبكة الويب الأوسع (وسيزداد عدد الناشرين تغيير معلمات ملف robots.txt الخاصة بهم لحظر الاستخدام غير المرخص لبياناتهم)، أو ما هو أسوأ من ذلك، استخدام المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي لمواصلة تدريب نماذج الذكاء الاصطناعي الخاصة بهم.
والأخير هو الطريق إلى تآكل مخرجات الذكاء الاصطناعي، مع الاستخدام المستمر لمحتوى الذكاء الاصطناعي لبناء نماذج لغوية كبيرة (LLMs) مما يؤدي إلى تسميم النظام بشكل فعال، وتفاقم الأخطاء في مجموعة البيانات. وهذا غير مستدام، مما يعني أن الطلب على البيانات المدخلة من البشر سيكون مرتفعًا، الأمر الذي من المحتمل أن يضع Meta وX وReddit في مقعد السائقين.
الرئيس التنفيذي لشركة Reddit ستيف هوفمان أبرز هذا في مقابلة هذا الأسبوع، مع ملاحظة أن:
“مصدر الذكاء الاصطناعي هو الذكاء الفعلي، وهذا ما تجده على موقع Reddit.”
رديت بالفعل وقعت اتفاقية لمشاركة البيانات مع جوجل للمساعدة في تعزيز تجارب Gemini AI الخاصة بعملاق البحث، وقد يكون ذلك بمثابة تعاون رئيسي لمستقبل أدوات Google.
والسؤال إذن هو ما هي المنصة الاجتماعية التي تحتوي على البيانات الأكثر قيمة لإنشاء نموذج الذكاء الاصطناعي؟
لدى Meta مجموعة متنوعة من المحتوى من مليارات المستخدمين البشريين، على الرغم من انخفاض معدل النشر في السنوات الأخيرة، لصالح استهلاك الفيديو في تطبيقاتها بدلاً من ذلك. وهذا هو السبب في أن Threads يمكن أن تكون مكونًا قيمًا، ولماذا خوارزمية Threads قد يفضل المشاركات التي تطرح الأسئلة، كوسيلة للمساعدة في تدريب أنظمة الذكاء الاصطناعي الخاصة بها.
X أيضًا يرى يتم تحميل أكثر من 200 مليون مشاركة وردود أصلية على منصتها يوميًالكن طبيعة تلك المنشورات ذات صلة، من حيث تدريب النظام على كيفية فهم التفاعل الشبيه بالإنسان، وتقديم استجابات دقيقة.
ولهذا السبب، يمكن أن يكون موقع Reddit، كما يشير هوفمان، أفضل منصة للتدريب على الذكاء الاصطناعي.
يتم إنشاء مجتمعات Subreddit حول المشاركة بأسلوب الأسئلة والأجوبة، حيث يقوم المستخدمون بطرح الأسئلة وتقديم الإجابات ذات الصلة، والتي يتم التصويت عليها بالأعلى أو بالرفض في التطبيق. إن بناء أداة ذكاء اصطناعي حول هذا الفهم، جنبًا إلى جنب مع نماذج الذكاء الاصطناعي الخاصة بكل مطور، يمكن أن يوفر الاستجابات الأكثر دقة، وسيكون من المثير للاهتمام أن نرى كيف يؤدي ذلك إلى تعزيز جهود الذكاء الاصطناعي في Google، وما ستدفعه Google في النهاية مقابل الامتياز المستمر.
في حين أن هذا يعني أيضًا أن الآخرين قد ينتهي بهم الأمر إلى السقوط في السباق.
OpenAI، على سبيل المثال، لا يحتوي على خلاصة مستمرة للبيانات، بخلاف LinkedIn، كجزء من نظامه الشراكة مع مايكروسوفت. هل سيؤدي ذلك في النهاية إلى إعاقة تطوير ChatGPT، حيث يقوم المزيد من الناشرين بإغلاق المحتوى الخاص بهم، وإزالته من تدريب الذكاء الاصطناعي؟
إنه اعتبار صالح للتطوير المستقبلي لنماذج الذكاء الاصطناعي، لأنه بدون مصادر بيانات جديدة، قد تفقد هذه الأدوات أهميتها بسرعة. الأمر الذي سيشهد تحول المستخدمين إلى نماذج أخرى.
إذن من يفوز في هذه الحالة؟ ميتا؟ xAI؟ جوجل؟
في الوقت الحالي، يبدو أن أحد هؤلاء الثلاثة سيحصل في النهاية على النموذج الأفضل، وسيقود الطريق مع الموجة التالية من أدوات الذكاء الاصطناعي العامة.
أو سنبدأ في رؤية صفقات كبيرة على مدخلات البيانات الحصرية، والمزيد من نماذج الذكاء الاصطناعي المتخصصة المبنية على مجموعات بيانات مختلفة.
يمكن أن يكون هذا تقدمًا أكثر فائدة ومنطقية، مما سيغير مشهد تطوير الذكاء الاصطناعي التوليدي.