What are you looking to buy?

duzline Mobiles icon
Mobiles
duzline tablet icons
Tablets
duzline accessories icon
Accessories
duzline electronics icons
Electronics
duzline entertainment icons
Entertainment
Beauty
Beauty items

أول كمبيوتر عملاق في العالم ، تم إطلاق Landmark Google TPU V4! ضعف الأداء.

تم إلغاء مؤتمر مطوري Google I / O في العام الماضي بسبب الوباء ، وقد اعتمد هذا العام تنسيقًا عبر الإنترنت للعودة بقوة.

أول كمبيوتر عملاق في العالم ، الإصدار 4 من Google TPU المميز

أعلن سوندار بيتشاي ، الرئيس التنفيذي لشركة Google ، عن عدد من التقنيات الجديدة في حرم Google حيث لم يكن هناك مطورون. بالإضافة إلى تقنية دردشة الفيديو الثلاثية الأبعاد Project Starling التي يمكن أن تساعد المستخدمين على تحقيق “النقل الفضائي الآني” ، فهي منعشة. يوجد أيضًا أحدث جيل من رقاقة AI TPU v4.

“هذا هو أسرع نظام نشرناه على Google ، وهو معلم تاريخي بالنسبة لنا.” قال بيتشاي.

أول كمبيوتر عملاق في العالم ، الإصدار 4 من Google TPU المميزأقوى TPU ، زادت السرعة مرتين ، وزاد الأداء بمقدار 10 مرات

وفقًا لمقدمة Google الرسمية ،

تحت نفس مقياس رقاقة 64 ، بغض النظر عن التحسين الذي أدخله البرنامج ، يتمتع TPU v4 بتحسين متوسط ​​في الأداء يبلغ 2.7 مرة مقارنة بالجيل السابق TPU v3.

في التطبيقات العملية ، يرتبط TPU v4 بشكل أساسي بـ Pod للعب دور. يحتوي كل جهاز TPU v4 Pod على 4096 شريحة TPU v4. بفضل تقنية التوصيل البيني الفريدة ، يمكن تحويل مئات المعالجات المستقلة إلى معالج واحد. النظام ، عرض النطاق الترددي للتوصيل البيني هو 10 أضعاف أي تقنية شبكة أخرى على نطاق واسع.

يمكن أن يصل كل قرص TPU v4 إلى قوة حوسبة واحدة على مستوى exaFlOP ، وتحقيق 10-18 عملية فاصلة عائمة في الثانية. هذا هو ضعف أداء أسرع كمبيوتر عملاق في العالم “Fuyue”.

“إذا كان هناك 10 ملايين شخص أثناء استخدام جهاز كمبيوتر محمول ، فإن كل قوة الحوسبة لهذه أجهزة الكمبيوتر تتراكم ، فقط تكون قادرًا على أن تصل إلى قوة 1 exaFLOP ، والوصول إلى 1 exaFLOP من قبل ، قد تحتاج إلى تصميم جهاز كمبيوتر خارق.” بيتشاردو العراق قال ذلك.

تظهر نتائج MLPerf لهذا العام أنه لا يمكن الاستهانة بقوة Google TPU v4. في اختبار التدريب على تصنيف الصور (بدقة لا تقل عن 75.90٪) باستخدام مجموعة بيانات ImageNet ، أكمل 256 TPU v4 هذه المهمة في 1.82 دقيقة ، وهو ما يقرب من 768 مزيجًا من بطاقتي رسومات NVIDIA Nvidia A100 و 192 AMD EPYC 7742 نواة (1.06 دقيقة) و 512 شريحة Ascend 910 المحسّنة من Huawei AI و 128 Intel نوى Xeon Platinum 8168 (1.56 دقيقة) سريعة.

عندما يكون مسؤولاً عن تدريب نموذج BERT لفهم القراءة المستند إلى التحويل على مجموعة كبيرة من ويكيبيديا ، فقد سجل TPU v4 أيضًا درجات عالية جدًا. يستغرق التدريب باستخدام 256 TPU v4 1.82 دقيقة ، وهو أبطأ بأكثر من دقيقة واحدة من 0.39 دقيقة المطلوبة للتدريب باستخدام 4096 TPU v3.

في الوقت نفسه ، إذا كنت ترغب في استخدام أجهزة NVIDIA لتحقيق 0.81 دقيقة من وقت التدريب ، فأنت بحاجة إلى 2048 بطاقة A100 و 512 AMD EPYC 7742 CPU.

عرض Google أيضًا أمثلة محددة للذكاء الاصطناعي يمكنها استخدام TPU v4 في مؤتمر I / O ، بما في ذلك نموذج MUM (نموذج متعدد المهام الموحد) الذي يمكنه معالجة بيانات متعددة مثل صفحات الويب والصور في نفس الوقت ، والنموذج الموحد متعدد المهام المصمم للحوار . LaMDA هو نموذج مشهد يمكنه استخدام TPU v4. الأول أقوى 1000 مرة من نموذج فهم القراءة BERT ، وهو مناسب لتمكين محركات البحث لمساعدة المستخدمين في الحصول على المعلومات التي يريدونها بشكل أكثر كفاءة ، في حين أن الأخير يمكن أن يكون لديهم محادثات دون انقطاع مع البشر. التواصل مع.

سيتم نشر TPU ، الذي لا يباع خارجيًا ، قريبًا في مركز بيانات Google ، وسيستخدم حوالي 90٪ من TPU v4 Pods الطاقة الخضراء.

بالإضافة إلى ذلك ، قالت Google أيضًا إنها ستكون مفتوحة لعملاء Google Cloud في وقت لاحق من هذا العام.

تم تطوير TPU ذاتيًا من Google ، وتم تحديث أربعة أجيال في خمس سنوات

أعلنت Google لأول مرة عن أول شريحة AI مخصصة داخليًا في عام 2016 ، والتي تختلف عن البنية المركبة الأكثر شيوعًا للتدريب ونشر نماذج الذكاء الاصطناعي ، أي مزيج من وحدة المعالجة المركزية ووحدة معالجة الرسومات. ساعد الجيل الأول من TPU شركة AlphaGo في معركة Go المشهورة عالميًا بين الإنسان والآلة. أعلنت هزيمة لي شيشي “الشهير في الحرب العالمية الأولى” أن وحدات معالجة الرسومات ليست وحدها التي يمكنها القيام بالتدريب والاستدلال.

يستخدم الجيل الأول من TPU من Google عملية 28 نانومتر ويستهلك حوالي 40 واط من الطاقة. إنها مناسبة فقط لاستدلال التعلم العميق. بالإضافة إلى AlphaGo ، يتم استخدامه أيضًا في نماذج التعلم الآلي مثل بحث Google والترجمة.

في مايو 2017 ،

أصدرت Google الإصدار 2 من TPU الذي يمكنه تحقيق التدريب على نموذج التعلم الآلي والاستدلال ، والوصول إلى قوة حوسبة النقطة العائمة 180TFLOPs ، كما تم تحسين عرض النطاق الترددي للذاكرة ، وهو 30 مرة أعلى من عبء عمل CPU AI الذي تم إطلاقه في نفس الفترة ، ويعمل بشكل أفضل من GPU AI. زاد الحمل بمقدار 15 مرة ، وشعر بطل العالم Go Ke Jie ، الذي هزمه AlphaGo استنادًا إلى 4 TPU v2 ، بكل هذا بشكل حدسي.

في مايو 2018 ،

أصدرت Google الجيل الثالث من TPU v3 ، والذي يحتوي على ضعف أداء الجيل السابق من TPU ، وينفذ 420TFLOPs عمليات النقطة العائمة ، و 128 جيجابايت من الذاكرة ذات النطاق الترددي العالي.

وفقًا لإيقاع التحديثات التكرارية مرة واحدة سنويًا ، يجب على Google إطلاق الجيل الرابع من TPU في عام 2019. ومع ذلك ، في مؤتمر I / O هذا العام ، أطلقت Google الجيل الثاني والثالث من أجهزة TPU ، والتي يمكن تهيئتها باستخدام أكثر من 1000 وحدة. يقلل TPU بشكل كبير من الوقت المطلوب للتدريب على النموذج المعقد.

في تاريخ تطوير شرائح الذكاء الاصطناعي ، يعد Google TPU ابتكارًا تقنيًا نادرًا ، سواء من حيث الذاكرة على الرقاقة وإمكانية البرمجة ، وكسر “احتكار” GPU وفتح مشهد تنافسي جديد لرقائق الذكاء الاصطناعي السحابية.

لا يزال Google TPU ، الذي ظل قيد التطوير لمدة خمس سنوات ، يحافظ على قدرة تنافسية قوية حتى يومنا هذا. كيف سيبدو العالم في المستقبل؟ أخبرنا Google TPU بالفعل جزءًا صغيرًا من الإجابة.

الخامس#duzline #Supercomputer # TPUV4

Source link

أحدث الأخبار
أخبار مختلفة