Искусственный интеллект открывает новые возможности для бизнеса, однако не все пользователи могут в полной мере воспользоваться его преимуществами. Большинство ИИ-систем разработаны для языков с высоким уровнем ресурсов, таких как английский, испанский или русский, что создает серьезный языковой разрыв и лишает многих, в том числе казахстанцев, доступа к передовым технологиям на их родном языке, необходимых для развития и улучшения жизни в странах с малоресурсными языками.
В Казахстане проблему языкового разрыва в ИИ решает научная рабочая группа под руководством Института умных систем и искусственного интеллекта при Назарбаев Университете (ISSAI NU). Они работают над созданием большой языковой модели KAZ-LLM, которая охватит казахский, русский и английский языки, чтобы каждый мог использовать цифровые технологии на своем родном языке. Эта фундаментальная модель станет основой для разработки местных сервисов и продуктов, так как будет опубликована в открытом доступе.
Партнерами в создании национальной большой языковой модели KAZ-LLM выступают цифровой оператор Beeline Казахстан и его дочерняя ИТ-компания QazCode. Это далеко не первый опыт оператора по разработке ИИ. Так, в прошлом году Beeline запустил и выложил в открытый доступ для всех разработчиков модель Kaz-RoBERTA-conversational, которая активно используется для обслуживания абонентов на цифровых платформах. На платформе Hugging Face ее скачали более трех тысяч раз.
Такие инициативы особенно актуальны на фоне важности цифровизации, о которой говорит руководство страны. Президент Казахстана Касым-Жомарт Токаев подчеркнул важность укрепления цифровой инфраструктуры страны и выразил готовность лично курировать создание системы ИИ в республике. «Перед нашими глазами разворачивается новая эра. Воздействие технологий ИИ столь же революционно, как открытие электричества и интернета. И развитие ИИ должно опережать потребности IT-разработчиков. В первую очередь, необходимо нарастить наши вычислительные мощности», — заявил президент, подчеркивая важность развития отечественных технологий.
Благодаря Beeline Казахстан и QazCode проект по созданию KAZ-LLM, курируемый ISSAI, обеспечен необходимой инфраструктурой. Компанией были предоставлены облачные вычислительные мощности объемом 8 DGX H100, что позволило существенно увеличить объем тренировочных данных и возможности обучения модели. Компания также предоставила собранные открытые данные, а дата-сайентисты QazCode присоединились к совместной рабочей группе по обучению модели.
KAZ-LLM сможет создавать контент на языках, наиболее актуальных для Казахстана: казахском, русском и английском. Модель будет играть решающую роль в сохранении национального культурного наследия и будет охватывать исторический контекст, специализированные области и разговорные данные, представляющие Казахстан. Адаптируя генеративный ИИ к местным потребностям, KAZ-LLM продемонстрирует, как национальные проекты могут устранить языковые пробелы и внести свой вклад в глобальный ландшафт инноваций в области ИИ.
Наиболее важным является то, что проект KAZ-LLM способствует появлению передовых специалистов в области генеративного ИИ. Благодаря практическому подходу к подготовке данных, обучению и внедрению модели Казахстан поддерживает новую волну передовых научных кадров, способных создавать модели и инструменты генеративного ИИ,- прокомментировал ISSAI NU.
Этот вклад в развитие национальной большой языковой модели KAZ-LLM отражает стратегию «цифрового оператора» Beeline, а также стремление преодолеть языковой разрыв в ИИ-технологиях. С этой целью оператор подписал Меморандум с Суперкомпьютерным центром Барселоны, который специализируется на развитии ИИ разных языковых групп, а также анонсировал создание первого в Центральной Азии GPU-облака для разработки AI-продуктов на базе технологии NVIDIA.
Сегодня в портфеле компании множество успешных ИИ-проектов для бизнеса: видеоаналитика для продаж, компьютерное зрение, видеонаблюдение на производстве, маркетинговые решения и другие продукты.
«Наш накопленный опыт, знания и сотрудничество с Суперкомпьютерным центром Барселоны позволяют сосредоточиться на трех ключевых направлениях. Во-первых, это создание отечественного суперкомпьютера для обработки больших объемов данных и предоставление доступа к этим вычислительным мощностям специалистам Назарбаев Университета для обучения моделей. Во-вторых, мы продолжаем развивать казахскую языковую модель Kaz-LLM, чтобы интегрировать ее в цифровое пространство. И, наконец, мы уделяем особое внимание развитию профессионалов в области Data Science, чтобы они могли успешно работать над сложными проектами и конкурировать на международной ИТ-арене», — отметил Алексей Шаравар, CEO QazCode.
Развитие больших языковых моделей в таких сложных проектах, как KAZ-LLM, играет ключевую роль в формировании и подготовке сильных кадров в области Data Science для Казахстана. Эти специалисты не только получают уникальный опыт работы с передовыми технологиями, но и закладывают основу для дальнейшего прогресса в национальной ИИ-индустрии.
Совместные усилия Beeline Казахстан, QazCode, Назарбаев Университета, консорциума ведущих университетов страны, а также министерства цифрового развития, инноваций и аэрокосмической промышленности, министерства науки и высшего образования не только продвигают технологии ИИ на казахском языке, но и способствуют дальнейшему развитию цифровой экономики страны.