Т-Технологии разместили в открытом доступе ИИ-модель автоматического распознавания речи
ИИ-центр группы Т-Технологии, которая владеет 99,97% акций Т-Банка, опубликовал в открытом доступе модель автоматического распознавания речи – T-one. В компании утверждают, что модель распознает речь в потоке, а также обгоняет по качеству похожие open source разработки Сбера и Open AI.
T-one опубликовали на платформах Hugging Face и GitHub.
Модель сравнительно небольшого размера – 70 млн параметров. Например, ASR-модель компании SberDevices GigaAM состоит из 240 млн параметров, в ASR-модели Whisper large-v3 от OpenAI – 1,55 млрд параметров. Однако по оценке Т-Технологий, Т-one обгоняет эти ASR-модели по качеству распознавания русского языка в телефонии.
Представитель компании предполагает, что такие модели могут быть интересны как бизнесу, так и научному сообществу. Размер T-one позволяет запускать ее с ноутбука, и даже с учетом обслуживания, аренды или использования на своих серверах модель в десятки раз дешевле готовых решений от облачных провайдеров.
Представитель Т-Технологий считает, что использовать модель могут компании, разрабатывающие голосовых роботов и ассистентов или занимающиеся автоматизацией кол-центров:
Они могут взять за основу эту модель и адаптировать ее под свои решения. Это позволит сократить ресурсы на разработку с нуля. Для нас это важно, потому что это дает возможность провалидировать наши подходы и улучшить работу модели.
В компании сообщили, что на разработку модели было потрачено не более 10 млн рублей, включая аппаратное обеспечение и оплату труда сотрудников, участвовавших в проекте. Аналогичную модель уже внедрили в ряд внутренних продуктов Т-Банка. Среди них служба поддержки, мобильный секретарь в Т-Мобайле и инструменты защиты от спам-звонков.
Напомним, что Т-Технологии представили первую российскую большую языковую модель с гибридным режимом рассуждений на открытом исходном коде T-Pro 2.0.
Оригинал новости на SEOnews