AMD выпустила свою первую языковую модель ИИ — AMD-135M

AMD выпустила свою первую языковую модель ИИ — AMD-135M

52
Компания AMD, стремясь расширить своё присутствие на рынке искусственного интеллекта, выпустила не только оборудование для этих целей, но и приступила к разработке языковых моделей.

В результате был анонсирован выпуск первой малой языковой модели AMD-135M.

Новая модель AMD-135M входит в семейство Llama и ориентирована на использование в частном бизнесе. Пока неясно, связано ли её создание с недавним приобретением стартапа Silo AI (сделка ещё не завершена и требует одобрения регуляторов). Тем не менее, этот шаг очевидно направлен на удовлетворение потребностей клиентов с помощью предварительно обученной модели, разработанной AMD с применением её же оборудования.

Одним из преимуществ модели AMD является использование метода спекулятивного декодирования. Этот процесс включает в себя небольшую «черновую модель», которая генерирует несколько токенов-кандидатов за один проход, после чего они проверяются более крупной, точной «целевой моделью». Такой подход позволяет одновременно создавать несколько токенов, но требует большей вычислительной мощности и увеличивает объём передаваемых данных.

Языковая модель AMD представлена в двух версиях: AMD-Llama-135M и AMD-Llama-135M-code. Каждая из них оптимизирована для определённых задач благодаря использованию технологии спекулятивного декодирования, что повышает производительность вывода. Базовая модель AMD-Llama-135M была обучена с нуля на 670 млрд токенов общих данных. Этот процесс занял шесть дней с применением четырёх восьмиканальных узлов на базе AMD Instinct MI250.

Модель AMD-Llama-135M-code была дообучена на дополнительных 20 млрд токенов, специально связанных с программированием. Этот этап занял четыре дня с использованием того же оборудования. В компании уверены, что дальнейшая оптимизация моделей сможет ещё больше повысить их производительность и эффективность.

Поделиться: