{:en}Abu Dhabi, United Arab Emirates – Technology Innovation Institute (TII), a global research center and applied research pillar of Abu Dhabi’s Advanced Technology Research Council, today announced the launch of NOOR, the world’s largest Arabic natural language processing (NLP) model to date.
TII’s team of advanced researchers and Artificial Intelligence (AI) specialists, has joined forces with LightOn, a technology company that unlocks extreme-scale machine intelligence for businesses, to transform the Arabic NLP model. The NOOR model has the capability to carry out tasks beyond the domain of language – offering end-to-end pipeline high quality data, including crawling, filtering, and curation at scale. The model facilitates extreme-scale distributed training and serving – to deliver applications with efficient inference and model specialization.
Dr. Ray O. Johnson, CEO, TII and ASPIRE, said: “With this development, we are well on track to enhance our research capabilities and credentials as well as elevate the status of Abu Dhabi and the UAE as a serious research ecosystem. Our expert teams have demonstrated yet again that this region can achieve breakthrough R&D outcomes to impact the world.”
Dr. Ebtesam Almazrouei, Director, AI Cross-Center Unit, TII, said: “Large language models have taken the world of natural language processing by storm, and we are proud to introduce this cutting-edge model with 10 billion parameters – the world’s largest Arabic NLP model. The uniquely large Arabic dataset collected to train the model is the result of months of work that included curating, scrapping, and filtering of varied sources. A special thank you to the entire team that worked on this project to make NOOR the go-to exploration model in Arabic for academicians and businesses everywhere.”
Speaking on the launch, Prof. Mérouane Debbah, Chief Researcher, Digital Science Research Center and AI Cross-Center Unit, TII, said: “With NOOR, TII has expanded the scope of the modern standard Arabic model by leveraging know-how in large language models to build cross-disciplinary, cutting-edge expertise in this new generation of AI research.”
To curate the world’s largest high-quality cross-domain Arabic datasets, NOOR’s unique dataset of more than 30 billion words combines web data with books, poetry, news articles, and technical information to significantly widen the applicability of the model.
Dr. Ebtesam Almazrouei said the NOOR model is based on the popular Transformer architecture. As a decoder-only model, similar in structure to GPT-3, it is programmed to tackle generative tasks with architecture upgraded to reflect the latest developments in the world of machine learning, including improvements such as better positional embeddings. To help ensure quality at scale in the NOOR dataset, the TII team designed an automated filtering pipeline based on machine learning techniques. These tools identify text like quality references and safeguard the model from exposure to spam content.
Leveraging state-of-the-art 3D parallelism, NOOR was trained on a High-Performance Computing resource with 128 A100 GPUs, allowing for the distribution of computations and ensuring efficient use of the available hardware resources.
The Director of the AI Cross-Center Unit noted that this was only the first step in the Unit’s efforts to contribute to the wider UAE Strategy for Artificial Intelligence.
Named for the Arabic word “light”, the model has been so called to establish the correlation of the Arabic language model to enlightening the mind.
About Technology Innovation Institute (TII)
For more information, visit www.tii.ae
*Source: AETOSWire{:}{:ar}أبوظبي، الإمارات العربية المتحدة – أعلن اليوم معهد الابتكار التكنولوجي، وهو معهد عالمي رائد يختص بالبحث والتطوير، وذراع الأبحاث التطبيقية التابع لمجلس أبحاث التكنولوجيا المتطورة في أبوظبي، عن إطلاق “نور” (NOOR)، أكبر نموذج لمعالجة اللغة العربية الطبيعية في العالم حتى الآن.
وقد تعاون فريق معهد الابتكار التكنولوجي المكوّن من نخبة من الباحثين والمتخصصين في الذكاء الاصطناعي مع شركة “لايت أون” (LightOn)، وهي شركة تكنولوجيا تسمح بإطلاق العنان لإمكانات ذكاء الآلات على نطاق واسع لصالح الشركات، من أجل إحداث ثورة في نموذج معالجة اللغة العربية الطبيعية. يتميز نموذج “نور” (NOOR) بالقدرة على تنفيذ مهام تتجاوز نطاق اللغة – ليقدم خطوط بيانات متكاملة عالية الجودة، بما في ذلك خوارزميات البحث أو ما يُعرف بـ”الزحف” و”ترشيح” العناوين والقوائم ومعالجة المحتوى على نطاق واسع. يسمح النموذج بتسهيل التدريب الموزع والخدمة على نطاق واسع، لتقديم التطبيقات من خلال الاستدلال الفعال والنمذجة المتخصصة.
وقال الدكتور راي أو. جونسون، الرئيس التنفيذي لمعهد الابتكار التكنولوجي و”أسباير”، ذراع إدارة برامج التكنولوجيا التابعة لمجلس أبحاث التكنولوجيا المتطورة في أبوظبي في معرض تعليقه: “سيسمح هذا الانجاز بوضعنا على المسار الصحيح لتعزيز قدراتنا ومؤهلاتنا البحثية، فضلاً عن الارتقاء بمكانة أبوظبي ودولة الإمارات العربية المتحدة كمركز بحثي يتميز بالجدية. لقد أثبتت فرقنا المرموقة من الخبراء مرة أخرى أن هذه المنطقة تتمتع بالمؤهلات اللازمة لتحقيق نتائج متقدمة في مجال البحث والتطوير، قادرة على التأثير على العالم.”
من جانبها، قالت الدكتورة ابتسام المزروعي، مديرة وحدة الذكاء الاصطناعي في معهد الابتكار التكنولوجي: “لقد اكتسبت نماذج اللغات الكبيرة شعبية قوية في عالم معالجة اللغات الطبيعية. ونحن فخورون بالإعلان عن إطلاق هذا النوذج الفريد من نوعه، والذي يحتوي على 10 مليارات من المعلمات، ما يجعل منه نموذج معالجة اللغة العربية الطبيعية الأقوى في العالم. تعدّ مجموعة البيانات العربية الكبيرة الفريدة من نوعها والتي تم جمعها لتدريب النموذج نتيجة عدة أشهر من العمل الشاق الذي تضمن معالجة واستكشاف وترشيح مجموعة متنوعة من المصادر. نتوجه بخالص مشاعر الشكر لكامل أعضاء الفريق الذي عمل على هذا المشروع، لجعل ’نور‘ (NOOR) نموذج الاستكشاف المفضل باللغة العربية للأكاديميين والشركات في كل مكان.”
وفي معرض حديثه عن الإطلاق المرتقب للنموذج، قال البروفيسور مروان دباح منصب كبير الباحثين في قسم الذكاء الاصطناعي وأنظمة الاتصالات ووحدة الذكاء الاصطناعي في معهد الابتكار التكنولوجي: “من خلال نموذج ’نور‘ (NOOR)، تمكن معهد الابتكار التكنولوجي من توسيع نطاق النموذج العربي القياسي الحديث مستفيداً من المعرفة في مجال نماذج اللغات الكبيرة من أجل بناء خبرات متعددة التخصصات ومتطورة في هذا الجيل الجديد من أبحاث الذكاء الاصطناعي.”
ومن أجل معالجة واختيار مجموعات البيانات العربية عالية الجودة عبر النطاقات الأكبر في العالم، تتولى مجموعة بيانات نموذج “نور” الفريدة من نوعها التي تضم أكثر من 30 مليار كلمة، دمج بيانات الويب مع الكتب والأشعار والمقالات الإخبارية والمعلومات التقنية لتوسيع نطاق تطبيق النموذج بشكل كبير.
وأضافت الدكتورة ابتسام المزروعي أن نموذج “نور” (NOOR) يعتمد على بنية المحولات الشعبية. وقالت: “تتميز وحدة فك الترميز الخاصة بالنموذج بأنها شبيهة من حيث تصميمها بالنموذج اللغوي التوليدي مسبق التدريب 3 (GPT-3)، وهو مبرمج لمعالجة المهام التوليدية. وقد تمّ تحديث بنية النموذج لتعكس أحدث التطورات في عالم التعلّم الآلي، بما في ذلك التحسينات مثل التضمين الأفضل لخصائص الكلمات الدلالية. وللمساعدة على ضمان الجودة على نطاق واسع ضمن مجموعة بيانات ’نور‘ (NOOR)، قام فريق معهد الابتكار التكنولوجي بتصميم مجموعة من أدوات الترشيح الآلية وتقنيات التعلّم الآلي. تتولى هذه الأدوات تحديد النص ذات الصلة بالمراجع عالية الجودة، وتحمي النموذج من التعرض للرسائل الالكترونية غير المرغوب بها.”
تم تدريب نموذج “نور” (NOOR) على 128 وحدة معالجة رسومات من طراز “إيه 100” (A100)، وتستفيد من نهج التوازي ثلاثي الأبعاد الحديث، فضلاً عن أدوات “ديب سبيد” (DeepSpeed) أو مكتبة تحسين التعلم العميق ومحوّل التعلّم العميق “ميجاترون” (Megatron) لتمكين توزيع اللغويات الحاسوبية، وضمان الاستخدام الفعال لموارد الأجهزة المتاحة في الوقت عينه.
كما لفتت مديرة وحدة الذكاء الاصطناعي في معهد الابتكار التكنولوجي أن هذا الإنجاز ليس سوى الخطوة الأولى في جهود الوحدة للمساهمة في تنفيذ استراتيجية الإمارات العربية المتحدة للذكاء الاصطناعي الأوسع نطاقاً.
تجدر الإشارة إلى أن النموذج دُعي “نور”، ويعني انبعاث الضوء، في خطوة من شأنها أن تثبت ارتباط نموذج اللغة العربية بتنوير العقل.
لمحة عن معهد الابتكار التكنولوجي
للمزيد من المعلومات، يُرجى زيارة الرابط الالكتروني التالي: www.tii.ae
إن نص اللغة الأصلية لهذا البيان هو النسخة الرسمية المعتمدة. أما الترجمة فقد قدمت للمساعدة فقط، ويجب الرجوع لنص اللغة الأصلية الذي يمثل النسخة الوحيدة ذات التأثير القانوني.{:}