Teknoloji 29 Temmuz 2024

GPU’lar isyanda! Meta Llama 3 dil modeli kullanıcıları üzdü

Meta’nın yeni araştırma raporuna göre, 405 milyar parametreli Llama 3 modelini eğitmek için kullanılan 16384 NVIDIA H100 GPU’luk küme, tam anlamıyla bir baş belası oldu. 54 gün içinde tam 419 kez arızalandı. Bu, ortalama olarak her üç saatte bir arıza demek.

Llama 3 dil modeli sisteminin ölçeği ve görevlerin senkronizasyonu öyle hassas ki, tek bir GPU bile arızalansa tüm eğitim süreci duruyor ve yeniden başlamak gerekiyor. Meta ekibinin raporuna göre, bu 419 arızanın 148’i (%30.1) çeşitli GPU sorunlarından, 72’si (%17.2) ise GPU’nun yüksek bant genişlikli belleğinden (HBM3) kaynaklandı. İnanılmaz ama gerçek, 54 gün içinde sadece iki CPU arızası yaşandı. Diğer beklenmedik kesintilerin yüzde 41.3’ü ise yazılım hataları, ağ kabloları ve adaptör sorunlarından kaynaklandı.

GPU’lar isyanda! Meta Llama 3 dil modeli kullanıcıları üzdü 7

Meta ekibi, bu kaostan çıkmak için harika bir dizi araç ve strateji geliştirdi. Görev başlatma ve kontrol noktası sürelerini kısaltma, PyTorch’un NCCL uçuş kaydedicisini kullanarak performans sorunlarını teşhis etme ve geri kalan GPU’ları tanımlama gibi adımlar attılar. Ayrıca, çevresel faktörlerin etkilerini de dikkate aldılar; öğle saatlerindeki sıcaklık dalgalanmalarının GPU performansına etkisi ve aynı anda çalışan büyük miktarda GPU’nun veri merkezi elektrik şebekesi üzerindeki baskısı gibi faktörleri göz önünde bulundurdular.




Meta, Llama 3.1 açık kaynak büyük dil modelini yayınladı!

Meta Llama 3.1 açık kaynak dil modeli duyuruldu. Yeni 405B sürümü, GPT-4 ve Claude 3.5 sonnet ile yarışıyor. İşte detaylar…

405 milyar patametreli Meta Llama 3 gibi yapay zeka modellerinin parametre sayısı arttıkça, bu tür devasa eğitim kümeleri daha da yaygınlaşacak. Örneğin, xAI planında yer alan 100 bin H100 grafik kartı kümesi, gelecekteki AI eğitimlerinde daha fazla zorluğun ortaya çıkabileceğini gösteriyor. Bu yüzden Meta’nın şimdiden bu sorunları çözme çabaları, gelecekteki daha büyük ölçekli projeler için kritik öneme sahip.

Meta, yüzde 90’ın üzerinde etkili eğitim süresi sağlamayı başardı. Ancak, bu arızalar olmasaydı çok daha verimli olabilirdi. Bu deneyimler, Meta’nın gelecekteki projelerinde daha sağlam ve dayanıklı sistemler geliştirmesine yardımcı olacak.

Siz ne düşünüyorsunuz? Görüşlerinizi aşağıdaki yorumlar kısmına yazabilirsiniz.

GPU’lar isyanda! Meta Llama 3 dil modeli kullanıcıları üzdü 8

source

Spread the love <3

You may also like...

Tem
18
2024
0

Star Wars Outlaws için geri sayım! Oynanış videosu yayınlandı

Ubisoft, açık dünya Star Wars oyunu için yeni bir oynanış videosu paylaştı. Star Wars: Outlaws için yayınlanan 10 dakikalık oynanış...

Spread the love <3
Mar
23
2024
0
BDDK taşıt kredilerinde yeni düzenlemeler yaptı!

BDDK taşıt kredilerinde yeni düzenlemeler yaptı!

Taşıt kredilerindeki faiz artışıyla birlikte birçok kişi otomobil alma seyrinde değişikliğe gitti. Bununla beraber otomobil piyasalarında durgunluklar da yaşandı. Bugün...

Spread the love <3
May
02
2024
0
Audible to test using Prime Video data for audiobook recommendations as Spotify competition heats up

Audible to test using Prime Video data for audiobook recommendations as Spotify competition heats up

Amazon has historically operated audiobook marketplace Audible as a separate entity, unconnected to the retailer’s broader goals and ambitions. Today,...

Spread the love <3
Nis
22
2024
0
Samsung bu ülkede ücretsiz ekran değişimi yapacak!

Samsung bu ülkede ücretsiz ekran değişimi yapacak!

Ortaya çıkan son sızıntılar, Samsung yönetiminin Hindistan’da satılan bazı cihazlara ücretsiz ekran değişimi yapma kararı aldığını gösteriyor. Kullanıcı memnuniyetini artırmak...

Spread the love <3
Whatsapp İletişim
Merhaba,
Size nasıl yardımcı olabilirim ?