Память HBM3 являются причиной половины сбоев при обучении LLama 3

Память HBM3 являются причиной половины сбоев при обучении LLama 3

22
Компания Meta недавно поделилась результатами своего исследования, которое касалось запуска модели Llama 3 405B на кластере, включающем 16384 графических процессора Nvidia H100 с 80 ГБ.

Обучение этой модели заняло 54 дня, и за это время в кластере произошло 419 неожиданных сбоев компонентов, что в среднем составляет один сбой каждые три часа. В половине случаев сбоев виновниками были графические процессоры или их встроенная память HBM3.

Суперкомпьютеры представляют собой невероятно сложные устройства, которые используют десятки тысяч процессоров, сотни тысяч других чипов и сотни километров кабелей. В таких сложных системах каждый час что-то может выйти из строя, и это считается нормальным явлением. Основная задача разработчиков – обеспечить бесперебойную работу системы, несмотря на такие локальные поломки.

Масштаб и синхронный характер обучения 16384 графических процессоров делает систему подверженной периодическим сбоям. Если эти сбои не будут устранены должным образом, один сбой графического процессора может нарушить всю работу по обучению, что потребует перезапуска системы. Однако команде Llama 3 удалось сохранить эффективное время тренировок более чем на 90%.

Во время 54-дневного прогона было зафиксировано 466 перерывов в работе, из которых 47 были запланированными и 419 – неожиданными. Плановые перерывы были связаны с автоматическим обслуживанием, а неожиданные – в основном с аппаратными проблемами. Проблемы с графическими процессорами были самой большой категорией, на которую приходилось 58,7% неожиданных сбоев. Только три инцидента потребовали значительного ручного вмешательства, остальные были устранены автоматически.

Из 419 неожиданных сбоев 148 (30,1%) были вызваны различными сбоями графических процессоров, включая сбои NVLink, в то время как 72 (17,2%) были вызваны сбоями памяти HBM3, что неудивительно, учитывая, что графические процессоры Nvidia H100 потребляют около 700 Вт и подвергаются сильному температурному воздействию. Интересно, что за 54 дня вышли из строя только два процессора.

Хотя графические процессоры являются наиболее важными компонентами, 41,3% неожиданных сбоев были вызваны множеством факторов, включая ошибки программного обеспечения, сетевые кабели и сетевые адаптеры.

Для повышения эффективности было сокращено время запуска заданий и контрольных точек, а также разработаны собственные диагностические инструменты. Регистратор NCCL от PyTorch широко использовался для быстрой диагностики и устранения зависаний и проблем с производительностью, особенно связанных с NCCLX. Этот инструмент собирает коллективные метаданные, помогая быстро решать проблемы.

Поделиться: