Обнародованный компанией OpenAI под занавес 2022 года ChatGPT получил колоссальную мировую популярность, вызвав мощный виток развития искусственного интеллекта. В последующие два года технологию активно использовали не только интернет-гиганты. Менее месяца назад в Казахстане стала доступна первая национальная языковая модель с открытым исходным кодом IrbisGPT, созданная в сотрудничестве MOST Holding и Gen2b.ai – студии, специализирующейся на применении искусственного интеллекта в бизнесе. Главное отличие IrbisGPT в том, что он обучен на большом наборе данных на государственном языке. Армен Атаян, СEO Gen2b.ai, рассказал, как проходило обучение и сколько времени потребуется на усовершенствование отечественного ChatGPT.
- Армен, появление вашей модели вызвало ажиотаж в прессе, медиа назвали Irbis чатом GPT на казахском языке. На деле сколько потребуется времени, чтобы Irbis действительно достиг уровня GPT?
- Уровня GPT-1 и GPT-2 он уже достиг. Если речь идет о работе с казахским языком, то и GPT-3 во многом Irbis обходит. Но если сравнивать когнитивные способности модели, то для достижения уровня, близкого к GPT-4, мы полагаем, потребуется полгода при наличии всех необходимых ресурсов.
- Для обучения нейросети GPT-1 в нее было загружено 4,5 Гб текста из 7000 интернет-страниц и книг разных жанров, однако разработчики поняли, что учить на книгах и статьях из Википедии не очень эффективно и GPT-2 учили на 40 ГБ текста, взяв за основу выборки постов пользователей Reddit с рейтингом выше среднего, чтобы алгоритмы усваивали только полезный контент без спама и флуда. Опирались ли вы на опыт специалистов из OpenAI при обучении IrbisGPT? Загружая «20 Гб сырых текстов всяких новостей, статей и прочего», как избежали спама?
- У нас были очень сжатые сроки, также текстов на казахском было крайне мало. Поэтому мы не так уж и много времени потратили на фильтрацию данных, но явного спама не было, это был небольшой, но все же качественный контент. В следующей версии наш подход, конечно же, будет включать в себя еще более глубокий анализ, сегментацию и фильтрацию данных.
- ChatGPT основан на языковой модели GPT-3.5, при разработке которой использовались разные методы обучения, в том числе с учителем и с подкреплением. Как в дальнейшем планируете обучать IrbisGPT? Какие методы будете использовать?
- Мы рассматриваем разные варианты и в настоящее время активно разрабатываем roadmap продукта. Конечные методы будут зависеть от ресурсов, которые нам удастся получить для обучения.
У нас сейчас сформирован список интереснейших гипотез, которые мы хотим протестировать. Мы хотим создать модель нового поколения, которая еще не была создана в нашем регионе. Будем надеяться, что у нас хватит для этого ресурсов.
- ChatGPT может вести диалог в режиме реального времени и даже спорить с собеседником, кроме того, этот чат-бот умеет писать программный код, выполняя дебаггинг написанного, создавать музыку, писать сценарии, эссе, стихи, тексты песен и пр. Какой функционал планируете заложить в IrbisGPT?
- В первую очередь, это, конечно же, работа с контекстом. Наша цель, чтобы модель имела максимально прикладное применение в обществе, бизнесе, науке, образовании, и работа с контекстом – одна из ключевых функций для достижения этого. А дальше уже каждый сможет «дообучить» ее в том направлении, которое посчитает нужным для себя.
- IrbisGPT пока слабо работает с контекстом, что необходимо, чтобы усилить эту опцию? Что в целом нужно вашей команде, чтобы IrbisGPT прогрессировал как можно быстрее?
- С контекстом действительно предстоит еще много работы для заметного прогресса. Это связано с отсутствием необходимого количества данных. Также наш фокус в первой версии был не на контексте, а в целом на обучении казахской грамматике и корректной генерации текста. Работе с контекстом мы уделили оставшееся время, которого было уже совсем немного. В этой версии мы уже будем сфокусированы на контексте и планируем значительно улучшить Irbis в данном направлении.
- На какие средства в настоящее время развиваете проект? Планируете привлекать инвестиции?
- IrbisGPT – общественный некоммерческий проект. Сейчас он развивается на наши собственные средства – мои, фаундера проекта Бахта Ниязова и MOST Holding. Мы вкладываем много усилий и ресурсов, потому что верим в сохранение и распространение казахского языка и его интеграцию в современные цифровые технологии. Надеемся получить отклик и собрать вокруг проекта комьюнити энтузиастов. Это напрямую может повлиять на возможности будущих моделей.