USD
471.83₸
-3.350
EUR
505.66₸
-5.060
RUB
5.40₸
-0.070
BRENT
86.30$
-0.200
BTC
60540.70$
-1467.000

Для создания модели казахского языка Kaz LLM начали собирать данные

Для этого будут использовать сервис Hugging Face

Share
Share
Share
Tweet
Share
Для создания модели 
казахского языка Kaz LLM начали собирать данные- Kapital.kz

Для создания и запуска большой модели казахского языка АО «Национальные информационные технологии» («НИТ») приступает к использованию сервиса от лидера в области машинного обучения – Hugging Face. На базе платформы будет организован открытый сбор данных, к которому могут присоединиться профессиональное сообщество Казахстана и держатели открытых данных, сообщает корреспондент центра деловой информации Kapital.kz со ссылкой на пресс-службу «НИТ».

Что такое Hugging Face?

Hugging Face – ведущая платформа, предназначенная для обмена исследованиями в области машинного обучения, на базе которой пользователи могут разрабатывать инструменты и создавать ИИ-модели. Пользователи платформы взаимодействуют с открытым исходным кодом, что делает искусственный интеллект более доступным и поощряет культуру обмена знаниями и прогрессом. Hugging Face помогает делиться моделями ИИ, которые далее в своей работе используют другие компании, включая Google, Microsoft Corp., Amazon, Meta Platforms Inc и другие. За 2023 год на платформе было зарегистрировано более 1,2 млн пользователей, а только в январе 2024 года сайт посетили почти 30 млн человек. В числе самых активных пользователей сервиса жители США, Китая, Японии и Индии.

Для чего это нужно?

Создание современной языковой модели казахского языка – это важный шаг к укреплению цифровой независимости Казахстана и продвижению национальной культуры в глобальном цифровом пространстве. Первым этапом к созданию любой языковой модели является сбор данных.

В результате общего сбора данных и будет создана высококачественная модель обработки казахского языка (NLP). В будущем это поможет не только улучшить автоматический перевод, но и повысить качество и точность обработки текстов на казахском языке в целом.

Представители профессионального IT-сообщества и держатели открытых данных могут присоединиться к сбору. Сбор данных будет осуществляться на специально созданном аккаунте АО «НИТ». Пользователи могут, авторизовавшись на платформе, загружать файлы на аккаунт huggingface.co/nitec. Загрузке подлежат текстовые файлы разных стилей и жанров на казахском языке в форматах txt, .csv, .json.

Читайте также

При работе с материалами Центра деловой информации Kapital.kz разрешено использование лишь 30% текста с обязательной гиперссылкой на источник. При использовании полного материала необходимо разрешение редакции.

Вам может быть интересно

Читайте Kapital.kz в Google News Kapital Telegram Kapital Instagram Kapital Facebook
Вверх
Комментарии
Выйти
Отправить
Авторизуйтесь, чтобы отправить комментарий
Новый пользователь? Регистрация
Вам необходимо пройти регистрацию, чтобы отправить комментарий
Уже есть аккаунт? Вход
По телефону По эл. почте
Пароль должен содержать не менее 6 символов. Допустимо использование латинских букв и цифр.
Введите код доступа из SMS-сообщения
Мы отправили вам код доступа. Если по каким-то причинам вы не получили SMS, вы можете отправить его еще раз.
Отправить код повторно ( 59 секунд )
Спасибо, что авторизовались
Теперь вы можете оставлять комментарии.
Вы зарегистрированы
Теперь вы можете оставлять комментарии к материалам портала
Сменить пароль
Введите номер своего сотового телефона/email для смены пароля
По телефону По эл. почте
Введите код доступа из SMS-сообщения/Email'а
Мы отправили вам код доступа. Если по каким-то причинам вы не получили SMS/Email, вы можете отправить его еще раз.
Пароль должен содержать не менее 6 символов. Допустимо использование латинских букв и цифр.
Отправить код повторно ( 59 секунд )
Пароль успешно изменен
Теперь вы можете авторизоваться
Пожаловаться
Выберите причину обращения
Спасибо за обращение!
Мы приняли вашу заявку, в ближайшее время рассмотрим его и примем меры.