USD
530.24₸
+1.720
EUR
543.97₸
+4.830
RUB
5.16₸
-0.010
BRENT
80.34$
+0.030
BTC
96380.70$
+2111.600

В Казахстане представлена большая языковая модель KAZ-LLM

Почему это важно?

Share
Share
Share
Tweet
Share
Фото: by Mj

Фото: by Mj

11 декабря в Астане Президенту Казахстана Касым-Жомарту Токаеву была представлена национальная языковая модель KAZ-LLM. Модель была разработана под руководством Института умных систем и искусственного интеллекта (ISSAI NU) в партнерстве с Beeline Казахстан и его ИТ-компанией QazCode, а также Astana Hub. Проект координируется Министерством цифрового развития, инноваций и аэрокосмической промышленности РК (МЦРИАП РК). Модель имеет стратегическое значение для всей страны, поскольку решает проблему языкового разрыва с помощью ИИ.

Как разрабатывалась модель KAZ-LLM?

KAZ-LLM от ISSAI основана на 150 млрд токенах, тщательно собранных из общедоступных источников на четырех языках — казахском, русском, английском и турецком. Это позволяет модели демонстрировать высокую точность и универсальность, обеспечивая улучшенное качество обработки текстов на различных языках и способствуя улучшению перевода. Токенами называют минимальные единицы текста, такие как слова, их части или даже отдельные символы, которые ИИ использует для анализа и понимания информации. 

Интерфейс и функциональность модели KAZ-LLM были разработаны с учетом самых передовых мировых стандартов, что подтверждает высокую технологическую зрелость и широкий потенциал модели. Для оценки ее производительности использовались комплексные бенчмарки с вопросно-ответными парами, охватывающие разнообразные области знаний. Пакет бенчмарков включал в себя следующие тесты:

  1. ARC (AI2 Reasoning Challenge) — проверка научного мышления через вопросы с множественным выбором.
  2. GSM8K — оценка способности решать задачи по математике для начальной школы.
  3. HellaSwag — тестирование логики продолжения предложений.
  4. MMLU (Massive Multitask Language Understanding) — проверка знаний по 57 различным предметам.
  5. Winogrande — оценка здравого смысла в двусмысленных предложениях.
  6. DROP — тестирование навыков понимания прочитанного и логического мышления.

Партнерство Beeline и QazCode ускорило разработку 

Ключевыми партнерами в ее создании стали Beeline Казахстан и его ИТ-компания QazCode, объединив усилия и опыт в создании языковых моделей, таких как Kaz-RoBERTA, а также в разработке ИИ-решений для малых языковых групп в сотрудничестве с зарубежными партнерами. Поддержка в виде предоставленных серверов с вычислительными мощностями 8 DGX H100 значительно ускорила процесс обучения и расширила возможности модели. Для сравнения: обычному компьютеру понадобится несколько дней, чтобы проанализировать архив из 1 млн фотографий. В то время как восемь серверов DGX H100, использующихся для обучения ISSAI KAZ-LLM, справятся с этой задачей всего за несколько секунд.

На базе этих серверов разработчики обучили две версии модели — с 8 млрд и 70 млрд параметров, к процессу присоединились дата-сайентисты QazCode. 

«Наша команда активно участвовала в разработке и обучении модели KAZ-LLM. При создании LLM разработчики и партнеры использовали современные технологии машинного обучения, такие как PyTorch и Torchtune, а также учитывали опыт предыдущих проектов по адаптации open source архитектур LLM для казахского языка. В ходе обучения, которое продолжалось 50 дней непрерывных вычислений, модель улучшила способность понимать контекст и обеспечивать высокое качество взаимодействия с пользователями. Тестирование показало, что модель успешно решает технические задачи, учитывая культурные и языковые особенности казахского языка», - поделился СЕО QazCode Алексей Шаравар.

О результатах и перспективах KAZ-LLM

Исследователи отмечают, что проект - это важная веха на пути Казахстана на мировой арене искусственного интеллекта: «Эта модель отражает стремление Казахстана к инновациям, самостоятельности и росту своей технологической экосистемы. Наша команда подготовила две версии ISSAI KAZ-LLM с 8 млрд и 70 млрд параметров, построенные на архитектуре Meta Llama и оптимизированные для высокопроизводительных систем и сред с ограниченными ресурсами. Модели выпущены по лицензии CC-BY-NC, которые доступны для некоммерческого использования на сайте Hugging Face, способствуя глобальному академическому и исследовательскому сотрудничеству. Таким образом разработчики смогут скачать и запустить нашу модель как на сложных серверах, так и на ноутбуках», - рассказал директор ISSAI профессор NU Хусейн Атакан Варол. 

Ожидается, что ISSAI Kaz-LLM откроет новые возможности для создания стартапов и инновационных проектов на базе ИИ. В дальнейшем планируется разработка моделей следующего поколения, которые будут интегрировать языковые и визуальные данные, что позволит значительно расширить возможности ИИ. Также рассматривается добавление поддержки модели других тюркских языков, что позволит укрепить связи между тюркоязычными сообществами.

При работе с материалами Центра деловой информации Kapital.kz разрешено использование лишь 30% текста с обязательной гиперссылкой на источник. При использовании полного материала необходимо разрешение редакции.

Вам может быть интересно

Читайте Kapital.kz в Kapital Telegram Kapital Instagram Kapital Facebook
Вверх
Комментарии
Выйти
Отправить
Авторизуйтесь, чтобы отправить комментарий
Новый пользователь? Регистрация
Вам необходимо пройти регистрацию, чтобы отправить комментарий
Уже есть аккаунт? Вход
По телефону По эл. почте
Пароль должен содержать не менее 6 символов. Допустимо использование латинских букв и цифр.
Введите код доступа из SMS-сообщения
Мы отправили вам код доступа. Если по каким-то причинам вы не получили SMS, вы можете отправить его еще раз.
Отправить код повторно ( 59 секунд )
Спасибо, что авторизовались
Теперь вы можете оставлять комментарии.
Вы зарегистрированы
Теперь вы можете оставлять комментарии к материалам портала
Сменить пароль
Введите номер своего сотового телефона/email для смены пароля
По телефону По эл. почте
Введите код доступа из SMS-сообщения/Email'а
Мы отправили вам код доступа. Если по каким-то причинам вы не получили SMS/Email, вы можете отправить его еще раз.
Пароль должен содержать не менее 6 символов. Допустимо использование латинских букв и цифр.
Отправить код повторно ( 59 секунд )
Пароль успешно изменен
Теперь вы можете авторизоваться
Пожаловаться
Выберите причину обращения
Спасибо за обращение!
Мы приняли вашу заявку, в ближайшее время рассмотрим его и примем меры.