Teknoloji 29 Temmuz 2024

GPU’lar isyanda! Meta Llama 3 dil modeli kullanıcıları üzdü

Meta’nın yeni araştırma raporuna göre, 405 milyar parametreli Llama 3 modelini eğitmek için kullanılan 16384 NVIDIA H100 GPU’luk küme, tam anlamıyla bir baş belası oldu. 54 gün içinde tam 419 kez arızalandı. Bu, ortalama olarak her üç saatte bir arıza demek.

Llama 3 dil modeli sisteminin ölçeği ve görevlerin senkronizasyonu öyle hassas ki, tek bir GPU bile arızalansa tüm eğitim süreci duruyor ve yeniden başlamak gerekiyor. Meta ekibinin raporuna göre, bu 419 arızanın 148’i (%30.1) çeşitli GPU sorunlarından, 72’si (%17.2) ise GPU’nun yüksek bant genişlikli belleğinden (HBM3) kaynaklandı. İnanılmaz ama gerçek, 54 gün içinde sadece iki CPU arızası yaşandı. Diğer beklenmedik kesintilerin yüzde 41.3’ü ise yazılım hataları, ağ kabloları ve adaptör sorunlarından kaynaklandı.

GPU’lar isyanda! Meta Llama 3 dil modeli kullanıcıları üzdü 7

Meta ekibi, bu kaostan çıkmak için harika bir dizi araç ve strateji geliştirdi. Görev başlatma ve kontrol noktası sürelerini kısaltma, PyTorch’un NCCL uçuş kaydedicisini kullanarak performans sorunlarını teşhis etme ve geri kalan GPU’ları tanımlama gibi adımlar attılar. Ayrıca, çevresel faktörlerin etkilerini de dikkate aldılar; öğle saatlerindeki sıcaklık dalgalanmalarının GPU performansına etkisi ve aynı anda çalışan büyük miktarda GPU’nun veri merkezi elektrik şebekesi üzerindeki baskısı gibi faktörleri göz önünde bulundurdular.




Meta, Llama 3.1 açık kaynak büyük dil modelini yayınladı!

Meta Llama 3.1 açık kaynak dil modeli duyuruldu. Yeni 405B sürümü, GPT-4 ve Claude 3.5 sonnet ile yarışıyor. İşte detaylar…

405 milyar patametreli Meta Llama 3 gibi yapay zeka modellerinin parametre sayısı arttıkça, bu tür devasa eğitim kümeleri daha da yaygınlaşacak. Örneğin, xAI planında yer alan 100 bin H100 grafik kartı kümesi, gelecekteki AI eğitimlerinde daha fazla zorluğun ortaya çıkabileceğini gösteriyor. Bu yüzden Meta’nın şimdiden bu sorunları çözme çabaları, gelecekteki daha büyük ölçekli projeler için kritik öneme sahip.

Meta, yüzde 90’ın üzerinde etkili eğitim süresi sağlamayı başardı. Ancak, bu arızalar olmasaydı çok daha verimli olabilirdi. Bu deneyimler, Meta’nın gelecekteki projelerinde daha sağlam ve dayanıklı sistemler geliştirmesine yardımcı olacak.

Siz ne düşünüyorsunuz? Görüşlerinizi aşağıdaki yorumlar kısmına yazabilirsiniz.

GPU’lar isyanda! Meta Llama 3 dil modeli kullanıcıları üzdü 8

source

Spread the love <3

You may also like...

Eki
15
2024
0

Katlanabilir iPhone ne zaman gelecek? İşte çıkış tarihi!

Yıllardır katlanabilir iPhone modellerinden haberler alıyoruz. Ancak uzun zamandır beklenilen katlanan model için herhangi bir kesin bilgi gelmiyordu. Sadece bazı...

Spread the love <3
Ağu
15
2024
0

Efsane PlayStation oyunu PC’ye geliyor! İşte tarih

Sony ve Ballistic Moon, Until Dawn Remake için son bilgileri paylaştı. Buna göre yenilenen oyun 4 Ekim tarihinde PlayStation 5...

Spread the love <3
May
03
2024
0
SoundCloud takes on Spotify’s Discover Weekly feature with new ‘Buzzing Playlists’

SoundCloud takes on Spotify’s Discover Weekly feature with new ‘Buzzing Playlists’

SoundCloud has launched a new set of playlists under the “Buzzing Playlists” moniker to highlight up-and-coming tracks from artists. There...

Spread the love <3
Haz
07
2024
0

Güneş görmeyen ülke, güneş enerjisi rekoru kırdı!

‘Avrupa’nın kuzeyindeki ülkeler, güneşin ne olduğunu bizim kadar iyi bilmezler’ diyorduk ki böyle bir haber çıktı. Almanya, 2024 yılına güçlü...

Spread the love <3
Whatsapp İletişim
Merhaba,
Size nasıl yardımcı olabilirim ?