USD
481.63₸
EUR
534.46₸
RUB
5.28₸
BRENT
78.19$
+0.310
BTC
58931.50$
-318.100

IrbisGPT: что осталось за кадром

Разработчики стремятся создать модель, способствующую распространению казахского языка и его интеграции в цифровые технологии

Share
Share
Share
Tweet
Share
Фото: Руслан Пряников

Фото: Руслан Пряников

Обнародованный компанией OpenAI под занавес 2022 года ChatGPT получил колоссальную мировую популярность, вызвав мощный виток развития искусственного интеллекта. В последующие два года технологию активно использовали не только интернет-гиганты. Менее месяца назад в Казахстане стала доступна первая национальная языковая модель с открытым исходным кодом IrbisGPT, созданная в сотрудничестве MOST Holding и Gen2b.ai – студии, специализирующейся на применении искусственного интеллекта в бизнесе. Главное отличие IrbisGPT в том, что он обучен на большом наборе данных на государственном языке. Армен Атаян, СEO Gen2b.ai, рассказал, как проходило обучение и сколько времени потребуется на усовершенствование отечественного ChatGPT.

- Армен, появление вашей модели вызвало ажиотаж в прессе, медиа назвали Irbis чатом GPT на казахском языке. На деле сколько потребуется времени, чтобы Irbis действительно достиг уровня GPT?

- Уровня GPT-1 и GPT-2 он уже достиг. Если речь идет о работе с казахским языком, то и GPT-3 во многом Irbis обходит. Но если сравнивать когнитивные способности модели, то для достижения уровня, близкого к GPT-4, мы полагаем, потребуется полгода при наличии всех необходимых ресурсов.

- Для обучения нейросети GPT-1 в нее было загружено 4,5 Гб текста из 7000 интернет-страниц и книг разных жанров, однако разработчики поняли, что учить на книгах и статьях из Википедии  не очень эффективно и GPT-2 учили на 40 ГБ текста, взяв за основу выборки постов пользователей Reddit с рейтингом выше среднего, чтобы алгоритмы усваивали только полезный контент без спама и флуда. Опирались ли вы на опыт специалистов из OpenAI при обучении IrbisGPT? Загружая «20 Гб сырых текстов всяких новостей, статей и прочего», как избежали спама?

- У нас были очень сжатые сроки, также текстов на казахском было крайне мало. Поэтому мы не так уж и много времени потратили на фильтрацию данных, но явного спама не было, это был небольшой, но все же качественный контент. В следующей версии наш подход, конечно же, будет включать в себя еще более глубокий анализ, сегментацию и фильтрацию данных.

IrbisGPT: что осталось за кадром 3194340 - Kapital.kz

- ChatGPT основан на языковой модели GPT-3.5, при разработке которой использовались разные методы обучения, в том числе с учителем и с подкреплением. Как в дальнейшем планируете обучать IrbisGPT? Какие методы будете использовать?

- Мы рассматриваем разные варианты и в настоящее время активно разрабатываем roadmap продукта. Конечные методы будут зависеть от ресурсов, которые нам удастся получить для обучения.

У нас сейчас сформирован список интереснейших гипотез, которые мы хотим протестировать. Мы хотим создать модель нового поколения, которая еще не была создана в нашем регионе. Будем надеяться, что у нас хватит для этого ресурсов.

- ChatGPT может вести диалог в режиме реального времени и даже спорить с собеседником, кроме того, этот чат-бот умеет писать программный код, выполняя дебаггинг написанного, создавать музыку, писать сценарии, эссе, стихи, тексты песен и пр. Какой функционал планируете заложить в IrbisGPT?

- В первую очередь, это, конечно же, работа с контекстом. Наша цель, чтобы модель имела максимально прикладное применение в обществе, бизнесе, науке, образовании, и работа с контекстом – одна из ключевых функций для достижения этого. А дальше уже каждый сможет «дообучить» ее в том направлении, которое посчитает нужным для себя.

- IrbisGPT пока слабо работает с контекстом, что необходимо, чтобы усилить эту опцию? Что в целом нужно вашей команде, чтобы IrbisGPT прогрессировал как можно быстрее? 

- С контекстом действительно предстоит еще много работы для заметного прогресса. Это связано с отсутствием необходимого количества данных. Также наш фокус в первой версии был не на контексте, а в целом на обучении казахской грамматике и корректной генерации текста. Работе с контекстом мы уделили оставшееся время, которого было уже совсем немного. В этой версии мы уже будем сфокусированы на контексте и планируем значительно улучшить Irbis в данном направлении.

- На какие средства в настоящее время развиваете проект? Планируете привлекать инвестиции?

- IrbisGPT – общественный некоммерческий проект. Сейчас он развивается на наши собственные средства – мои, фаундера проекта Бахта Ниязова и MOST Holding. Мы вкладываем много усилий и ресурсов, потому что верим в сохранение и распространение казахского языка и его интеграцию в современные цифровые технологии. Надеемся получить отклик и собрать вокруг проекта комьюнити энтузиастов. Это напрямую может повлиять на возможности будущих моделей.

При работе с материалами Центра деловой информации Kapital.kz разрешено использование лишь 30% текста с обязательной гиперссылкой на источник. При использовании полного материала необходимо разрешение редакции.

Вам может быть интересно

Читайте Kapital.kz в Google News Kapital Telegram Kapital Instagram Kapital Facebook
Вверх
Комментарии
Выйти
Отправить
Авторизуйтесь, чтобы отправить комментарий
Новый пользователь? Регистрация
Вам необходимо пройти регистрацию, чтобы отправить комментарий
Уже есть аккаунт? Вход
По телефону По эл. почте
Пароль должен содержать не менее 6 символов. Допустимо использование латинских букв и цифр.
Введите код доступа из SMS-сообщения
Мы отправили вам код доступа. Если по каким-то причинам вы не получили SMS, вы можете отправить его еще раз.
Отправить код повторно ( 59 секунд )
Спасибо, что авторизовались
Теперь вы можете оставлять комментарии.
Вы зарегистрированы
Теперь вы можете оставлять комментарии к материалам портала
Сменить пароль
Введите номер своего сотового телефона/email для смены пароля
По телефону По эл. почте
Введите код доступа из SMS-сообщения/Email'а
Мы отправили вам код доступа. Если по каким-то причинам вы не получили SMS/Email, вы можете отправить его еще раз.
Пароль должен содержать не менее 6 символов. Допустимо использование латинских букв и цифр.
Отправить код повторно ( 59 секунд )
Пароль успешно изменен
Теперь вы можете авторизоваться
Пожаловаться
Выберите причину обращения
Спасибо за обращение!
Мы приняли вашу заявку, в ближайшее время рассмотрим его и примем меры.