Teknoloji 29 Temmuz 2024

GPU’lar isyanda! Meta Llama 3 dil modeli kullanıcıları üzdü

Meta’nın yeni araştırma raporuna göre, 405 milyar parametreli Llama 3 modelini eğitmek için kullanılan 16384 NVIDIA H100 GPU’luk küme, tam anlamıyla bir baş belası oldu. 54 gün içinde tam 419 kez arızalandı. Bu, ortalama olarak her üç saatte bir arıza demek.

Llama 3 dil modeli sisteminin ölçeği ve görevlerin senkronizasyonu öyle hassas ki, tek bir GPU bile arızalansa tüm eğitim süreci duruyor ve yeniden başlamak gerekiyor. Meta ekibinin raporuna göre, bu 419 arızanın 148’i (%30.1) çeşitli GPU sorunlarından, 72’si (%17.2) ise GPU’nun yüksek bant genişlikli belleğinden (HBM3) kaynaklandı. İnanılmaz ama gerçek, 54 gün içinde sadece iki CPU arızası yaşandı. Diğer beklenmedik kesintilerin yüzde 41.3’ü ise yazılım hataları, ağ kabloları ve adaptör sorunlarından kaynaklandı.

GPU’lar isyanda! Meta Llama 3 dil modeli kullanıcıları üzdü 7

Meta ekibi, bu kaostan çıkmak için harika bir dizi araç ve strateji geliştirdi. Görev başlatma ve kontrol noktası sürelerini kısaltma, PyTorch’un NCCL uçuş kaydedicisini kullanarak performans sorunlarını teşhis etme ve geri kalan GPU’ları tanımlama gibi adımlar attılar. Ayrıca, çevresel faktörlerin etkilerini de dikkate aldılar; öğle saatlerindeki sıcaklık dalgalanmalarının GPU performansına etkisi ve aynı anda çalışan büyük miktarda GPU’nun veri merkezi elektrik şebekesi üzerindeki baskısı gibi faktörleri göz önünde bulundurdular.




Meta, Llama 3.1 açık kaynak büyük dil modelini yayınladı!

Meta Llama 3.1 açık kaynak dil modeli duyuruldu. Yeni 405B sürümü, GPT-4 ve Claude 3.5 sonnet ile yarışıyor. İşte detaylar…

405 milyar patametreli Meta Llama 3 gibi yapay zeka modellerinin parametre sayısı arttıkça, bu tür devasa eğitim kümeleri daha da yaygınlaşacak. Örneğin, xAI planında yer alan 100 bin H100 grafik kartı kümesi, gelecekteki AI eğitimlerinde daha fazla zorluğun ortaya çıkabileceğini gösteriyor. Bu yüzden Meta’nın şimdiden bu sorunları çözme çabaları, gelecekteki daha büyük ölçekli projeler için kritik öneme sahip.

Meta, yüzde 90’ın üzerinde etkili eğitim süresi sağlamayı başardı. Ancak, bu arızalar olmasaydı çok daha verimli olabilirdi. Bu deneyimler, Meta’nın gelecekteki projelerinde daha sağlam ve dayanıklı sistemler geliştirmesine yardımcı olacak.

Siz ne düşünüyorsunuz? Görüşlerinizi aşağıdaki yorumlar kısmına yazabilirsiniz.

GPU’lar isyanda! Meta Llama 3 dil modeli kullanıcıları üzdü 8

source

Spread the love <3

You may also like...

May
07
2024
0
Modi casts vote in election as fears grow among India&#039;s Muslims

Modi casts vote in election as fears grow among India's Muslims

Narendra Modi has cast his vote in the Indian general election amid growing anxiety among minority communities. The prime minister...

Spread the love <3
Nis
23
2024
0
General Galactic emerges from stealth to make methane from carbon dioxide

General Galactic emerges from stealth to make methane from carbon dioxide

Plenty of products benefit from tight integration, where companies design and sometimes build key components of a product in-house: Apple...

Spread the love <3
Nis
22
2024
0
Fintech startup Ramp sees 32% bump in valuation, Mercury expands into consumer banking

Fintech startup Ramp sees 32% bump in valuation, Mercury expands into consumer banking

Welcome to TechCrunch Fintech! This week, we’re looking at Ramp’s big raise and valuation jump, Mercury’s move into personal banking, Klarna’s...

Spread the love <3
Nis
24
2024
0
Türkiye’nin elektronik harp sistemi EJDERHA test edildi! (Video)

Türkiye’nin elektronik harp sistemi EJDERHA test edildi! (Video)

Türkiye’nin savunma sanayisinde önemli rol oynayan firmalardan Askerî Elektronik Sanayi veya kısaca ASELSAN, Uluslararası Savunma Sanayii Fuarı (IDEF) 2023 kapsamında...

Spread the love <3
Whatsapp İletişim
Merhaba,
Size nasıl yardımcı olabilirim ?