Teknoloji 29 Temmuz 2024

GPU’lar isyanda! Meta Llama 3 dil modeli kullanıcıları üzdü

Meta’nın yeni araştırma raporuna göre, 405 milyar parametreli Llama 3 modelini eğitmek için kullanılan 16384 NVIDIA H100 GPU’luk küme, tam anlamıyla bir baş belası oldu. 54 gün içinde tam 419 kez arızalandı. Bu, ortalama olarak her üç saatte bir arıza demek.

Llama 3 dil modeli sisteminin ölçeği ve görevlerin senkronizasyonu öyle hassas ki, tek bir GPU bile arızalansa tüm eğitim süreci duruyor ve yeniden başlamak gerekiyor. Meta ekibinin raporuna göre, bu 419 arızanın 148’i (%30.1) çeşitli GPU sorunlarından, 72’si (%17.2) ise GPU’nun yüksek bant genişlikli belleğinden (HBM3) kaynaklandı. İnanılmaz ama gerçek, 54 gün içinde sadece iki CPU arızası yaşandı. Diğer beklenmedik kesintilerin yüzde 41.3’ü ise yazılım hataları, ağ kabloları ve adaptör sorunlarından kaynaklandı.

GPU’lar isyanda! Meta Llama 3 dil modeli kullanıcıları üzdü 7

Meta ekibi, bu kaostan çıkmak için harika bir dizi araç ve strateji geliştirdi. Görev başlatma ve kontrol noktası sürelerini kısaltma, PyTorch’un NCCL uçuş kaydedicisini kullanarak performans sorunlarını teşhis etme ve geri kalan GPU’ları tanımlama gibi adımlar attılar. Ayrıca, çevresel faktörlerin etkilerini de dikkate aldılar; öğle saatlerindeki sıcaklık dalgalanmalarının GPU performansına etkisi ve aynı anda çalışan büyük miktarda GPU’nun veri merkezi elektrik şebekesi üzerindeki baskısı gibi faktörleri göz önünde bulundurdular.




Meta, Llama 3.1 açık kaynak büyük dil modelini yayınladı!

Meta Llama 3.1 açık kaynak dil modeli duyuruldu. Yeni 405B sürümü, GPT-4 ve Claude 3.5 sonnet ile yarışıyor. İşte detaylar…

405 milyar patametreli Meta Llama 3 gibi yapay zeka modellerinin parametre sayısı arttıkça, bu tür devasa eğitim kümeleri daha da yaygınlaşacak. Örneğin, xAI planında yer alan 100 bin H100 grafik kartı kümesi, gelecekteki AI eğitimlerinde daha fazla zorluğun ortaya çıkabileceğini gösteriyor. Bu yüzden Meta’nın şimdiden bu sorunları çözme çabaları, gelecekteki daha büyük ölçekli projeler için kritik öneme sahip.

Meta, yüzde 90’ın üzerinde etkili eğitim süresi sağlamayı başardı. Ancak, bu arızalar olmasaydı çok daha verimli olabilirdi. Bu deneyimler, Meta’nın gelecekteki projelerinde daha sağlam ve dayanıklı sistemler geliştirmesine yardımcı olacak.

Siz ne düşünüyorsunuz? Görüşlerinizi aşağıdaki yorumlar kısmına yazabilirsiniz.

GPU’lar isyanda! Meta Llama 3 dil modeli kullanıcıları üzdü 8

source

Spread the love <3

You may also like...

Nis
03
2024
0
Uygun fiyata 50 Megapiksel kamera! realme C65 tanıtıldı

Uygun fiyata 50 Megapiksel kamera! realme C65 tanıtıldı

realme, uygun fiyatlı orta seviye pazara hitap eden realme C65 modelini resmen tanıttı. Yenilenen tasarımıyla dikkat çeken C65; uygun fiyatı...

Spread the love <3
Nis
05
2024
0
YC’s latest Demo Day shows fascinating wagers on healthcare, chip design, AI and more

YC’s latest Demo Day shows fascinating wagers on healthcare, chip design, AI and more

The second half of Y Combinator’s Winter 2024 cohort presented on Thursday, once again bringing dozens and dozens of new...

Spread the love <3
Nis
26
2024
0
A race against time for Trump as America seeks the whole truth - and nothing but the truth

A race against time for Trump as America seeks the whole truth – and nothing but the truth

Two courts aren’t enough – not for Donald Trump, not on a Thursday. His hush money criminal trial and Supreme...

Spread the love <3
Nis
26
2024
0
73: How One Teacher Started an Urban Gardening Revolution

73: How One Teacher Started an Urban Gardening Revolution

You thought you knew project-based learning? You haven’t seen anything yet. In this episode, I interview Stephen Ritz, a Bronx...

Spread the love <3
Whatsapp İletişim
Merhaba,
Size nasıl yardımcı olabilirim ?