بالنسبة للشركة التي لديها أكثر من 3 مليارات مستخدم نشط ، والتيار الذي لا ينتهي من البيانات التي تأتي من ذلك ، فمن المبهج لماذا يحتاج Meta إلى الاعتماد على مثل هذه الحواف الضخمة من البيانات الخارجية لتشغيل أدوات AI الخاصة بها.
على أي حال ، مع تواجد الشركة تحد قانوني مهم في الولايات المتحدة على الاستخدام غير المصرح به للمواد المحمية بحقوق الطبع والنشر لتدريب نموذج Llama الخاص بها ، كان Meta أيضًا ضرب بتحدي حقوق الطبع والنشر أخرى، هذه المرة في فرنسا ، حيث أطلق الناشرون الفرنسيون أيضًا اتخاذ إجراءات قانونية لانتهاك حقوق الطبع والنشر.
كما ذكرت من قبل بلومبرج:
“يقاضي الناشرون والمؤلفون الفرنسيون مقاضاة Meta بسبب انتهاك حقوق الطبع والنشر ، متهمين عملاق التكنولوجيا باستخدام كتبهم لتدريب نموذج الذكاء الاصطناعي التوليدي دون إذن. SNE ، جمعية التجارة التي تمثل الناشرين الفرنسيين الرئيسيين بما في ذلك Hachette و التهابوقالت المجموعة في مؤتمر صحفي يوم الأربعاء إن جمعية المؤلفين SGDL و Criters ‘Union SNAC ، قدمت شكوى هذا الأسبوع في محكمة باريس مكرسة للممتلكات الفكرية.
يبدو أنه ، مثل إلى حد كبير الجماعية الأمريكية في السعي للحصول على ميتا لحساب استخدام أعمالهم بشكل غير قانوني ، وجد الناشرون الفرنسيون نفس الشيء ، وأن نماذج Meta من الذكاء الاصطناعى قادرة على إنتاج نسخ متماثلة دقيقة للغاية من أعمال مؤلفيهم ، مما يشير إلى تجريف محتمل وسرقة ممتلكاتهم الفكرية.
والتي من المحتمل أن تنبع من نفس دفعة تطوير الذكاء الاصطناعي في الشركة.
وفقًا للتقارير ، بعد ظهور Openai في عام 2022 ، كان الرئيس التنفيذي لشركة Meta Mark Zuckerberg يائسة للحاق بالركب ، وبناء نموذج منافس من شأنه أن يضمن أن Meta ظل الرائد في سباق الذكاء الاصطناعي.
ضمن هذا ، ورد أن Zuckerberg وافق على استخدام ما عرفه Meta هو المواد المحمية بحقوق الطبع والنشر من أجل بناء نموذج لغتها.
كما ذكرت من قبل صحيفة نيويورك تايمز:
“لم تتمكن Meta من مطابقة ChatGpt إلا إذا حصلت على المزيد من البيانات. ناقش البعض أن يدفع 10 دولارات للكتاب عن حقوق الترخيص الكاملة للألقاب الجديدة. ناقشوا شراء Simon & Schuster ، الذي ينشر مؤلفين مثل ستيفن كينج ، وفقًا للتسجيلات. تحدثوا أيضًا عن كيفية تلخيص الكتب والمقالات وغيرها من الأعمال من الإنترنت دون إذن وناقشوا امتصاص المزيد ، حتى لو كان ذلك يعني مواجهة الدعاوى القضائية. حذر أحد المحامين من المخاوف “الأخلاقية” حول أخذ الملكية الفكرية من الفنانين ، لكن قوبل بصمت ، وفقًا للتسجيلات “.
وبحسب ما ورد قامت Meta بدمج مواد محمية من مصادرها بشكل غير قانوني ، من المنصات التي عرفت أنها تعمل في انتهاك للقانون.
كانت المشكلة ، وفقًا لـ NYT ، هي أنه على الرغم من وجود عدد كبير من مستخدمي تطبيقاتها ، فإن معظم المحتوى الذي ينتجونه ليس مفيدًا بشكل مفرط في بناء نموذج الذكاء الاصطناعي ، لأن الأشخاص يحذفون المنشورات القديمة ، لا ينشر الأشخاص بشكل عام محتوى أطول إلى التطبيق ، فإن نمط الكتابة لا يتماشى مع الطبيعة المحادثة لطبيعة الدردشة ، إلخ.
على هذا النحو ، لكي تتنافس Meta ، كانت بحاجة إلى مصادر بيانات جديدة ، ووجدها في كتب مقرصنة. التي اكتشفها الناشرون الآن عبر وسائلهم الخاصة.
التي يمكن أن ترى META تواجه موكب من الدعاوى القضائية في جميع أنحاء العالم ، خاصة إذا كانت هذه الحالات الأولية تؤدي إلى صفقات التعويض للمؤلفين المتأثرين.
في الواقع ، إذا كان من الممكن إنشاء سابقة قانونية ، فيمكنك أن تراهن على أن كل دار نشر في العالم ستشم رائحة النقود ، وسوف تتجول في أي معلومات يمكن أن تجدها لاستنشاق آثار أعمالهم.
والتي يمكن أن تؤدي إلى عقوبات كبيرة على المضي قدما ميتا للمضي قدمًا.
ولكن تشبث ، كيف يمكن لـ Openai ، بدء تشغيل أصغر بكثير ، مع عدم الوصول إلى مليارات من معلومات المستخدمين ، قم ببناء قاعدة البيانات الخاصة بها بالطريقة نفسها دون نفس مشكلات حقوق الطبع والنشر؟
حسنًا ، إنه أيضًا مواجهة التحديات القانونية المختلفة لنفسه.
في الواقع ، في كل هذه الحالات ، يمكنك أن تتوقع أن ترى Openai أيضًا يتم التحقيق فيها لنفس الانتهاك بالضبط ، حيث يسعى المؤلفون والناشرين إلى اللجوء إلى الاستخدام غير المصرح به.
البيانات هي مصدر الطاقة الشرياني لنماذج اللغة الكبيرة ، وستفوز الشركة التي لديها أفضل مصادر البيانات في النهاية ، لأن نظامها سيؤدي إلى نتائج أفضل وأكثر دقة وأكثر قابلية للاستخدام ، استنادًا إلى المجموعة المرجعية. بدون هذا مصدر البيانات الأولي ، لم يكن للأنظمة أي شيء يجب أن تستمر ، وهذا هو السبب في أن Meta و Openai ، وغيرها ، كانوا على استعداد لتحمل مثل هذه المخاطر في بناء LLMs.
في الوقت نفسه ، بمجرد بنائها ، فإنها موجودة ، ويمكنك بعد ذلك تدريبهم ببيانات تكميلية من هناك. لذلك ربما تكون Meta قد نظرت إلى هذا على أنه خطر ضروري في الإعداد ، والذي سيمكنه الآن من الاستفادة من بيانات البيانات الخاصة بها لتحسين نماذجها.
هذا مشابه لكيفية اقتراب XAI من LLM ، وبناء الأساس ، ثم استخدام مشاركات X لتحسين النموذج ومراجعته لتوفير تحديثات إعلامية في الوقت الفعلي.
على هذا النحو ، على الرغم من أن هذا قد ينتهي تكلفهم ، فقد يكون الأمر يستحق ذلك ، ويقابله الفوائد التي سيجمعونها من بيع نماذجهم.
في كلتا الحالتين ، قد يستغرق الأمر سنوات حتى يتقاض المحاكم كل قضية ، وبحلول ذلك الوقت ، قد يكون هناك نهج قانوني جديد لتدريب LLM واستخدام مثل هذه الأعمال.
يمكنك المراهنة على أن ميتا تستكشف كل زاوية على هذه الجبهة.