USD
495.20₸
-2.060
EUR
522.34₸
-2.870
RUB
4.94₸
-0.030
BRENT
73.82$
+0.180
BTC
97050.30$
+2801.600

Первую национальную языковую модель на базе ИИ опубликовали в Казахстане

IrbisGPT обучена на большом наборе данных на казахском языке

Share
Share
Share
Tweet
Share
Фото: MOST Holding

Фото: MOST Holding

В Казахстане стала доступна первая национальная языковая модель с открытым исходным кодом IrbisGPT, обученная на большом наборе данных на государственном языке. Разработчики опубликовали официальный релиз на популярном ресурсе Habr.com. Теперь каждый казахстанец сможет протестировать языковую модель и сделать свой вклад в ее обучение на казахском языке, сообщает корреспондент центра деловой информации Kapital.kz со ссылкой на данные MOST Holding.

IrbisGPT — общественная некоммерческая инициатива, разработанная в сотрудничестве с MOST Holding и Gen2b.ai, студией, специализирующейся на применении искусственного интеллекта в бизнесе.

«IrbisGPT — это пионерский проект в области развития казахского языка через применение искусственного интеллекта. Цель инициативы - сохранение и распространение казахского языка и его интеграция в современные цифровые технологии для развития общества, экономики и науки в Казахстане. Мы выложили проект в открытый доступ для того, чтобы собрать вокруг него комьюнити и дать возможность энтузиастам развития казахского языка протестировать его и сделать свой вклад в обучение модели», - рассказал фаундер проекта Бахт Ниязов.

В сравнении с предрелизом, который  был опубликован весной, актуальная версия IrbisGPT демонстрирует отличный потенциал для обучения. По словам разработчиков, подобные опенсорсные модели либо пытаются ответить на английском, либо просто «сыпят» случайными словами на казахском, но благодаря длительному обучению национальная языковая модель на вопросы без контекста отвечает достаточно развернуто и правильно. IrbisGPT дает ответы на государственном языке на вопросы «шөп неге жасыл», знает кто президент Казахстана и количество дней в году, и даже может пофилософствовать о смысле жизни.

«За очень короткое время мы получили впечатляющие результаты. Irbis LLM не просто разобралась с построением слов и грамматикой казахского языка, она умеет обрабатывать входящую информацию, натренирована отвечать на простые вопросы, способна работать с контекстом, что дает возможность ее подключения к актуальным базам знаний, к налоговому кодексу, например, что может стать полезным инструментом по получению релевантной информации. Также благодаря более эффективному токенизатору скорость генерации текста на государственном языке увеличилась от 3 до 5 раз по сравнению с моделями GPT. Для обучения модели мы собрали 20 гигабайтов “сырых” данных из новостей и статей на казахском языке, расширив ее словарь почти в три раза. Однако этого недостаточно, мы надеемся на предоставление качественных данных со стороны госорганов для усовершенствования IrbisGPT. У нас есть четкий план, и самое главное - навыки по созданию модели следующего поколения, используя все самые последние достижения в области больших языковых моделей», - рассказал CEO Gen2b.ai Армен Атаян.

Итоговый словарь токенизатора содержит более 60 тыс. токенов. У команды есть план по созданию модели в более совершенной архитектуре, которая будет полезна в различных отраслях.

Читайте также

При работе с материалами Центра деловой информации Kapital.kz разрешено использование лишь 30% текста с обязательной гиперссылкой на источник. При использовании полного материала необходимо разрешение редакции.

Вам может быть интересно

Читайте Kapital.kz в Kapital Telegram Kapital Instagram Kapital Facebook
Вверх
Комментарии
Выйти
Отправить
Авторизуйтесь, чтобы отправить комментарий
Новый пользователь? Регистрация
Вам необходимо пройти регистрацию, чтобы отправить комментарий
Уже есть аккаунт? Вход
По телефону По эл. почте
Пароль должен содержать не менее 6 символов. Допустимо использование латинских букв и цифр.
Введите код доступа из SMS-сообщения
Мы отправили вам код доступа. Если по каким-то причинам вы не получили SMS, вы можете отправить его еще раз.
Отправить код повторно ( 59 секунд )
Спасибо, что авторизовались
Теперь вы можете оставлять комментарии.
Вы зарегистрированы
Теперь вы можете оставлять комментарии к материалам портала
Сменить пароль
Введите номер своего сотового телефона/email для смены пароля
По телефону По эл. почте
Введите код доступа из SMS-сообщения/Email'а
Мы отправили вам код доступа. Если по каким-то причинам вы не получили SMS/Email, вы можете отправить его еще раз.
Пароль должен содержать не менее 6 символов. Допустимо использование латинских букв и цифр.
Отправить код повторно ( 59 секунд )
Пароль успешно изменен
Теперь вы можете авторизоваться
Пожаловаться
Выберите причину обращения
Спасибо за обращение!
Мы приняли вашу заявку, в ближайшее время рассмотрим его и примем меры.