1С:Распознавание речи
«1С:Распознавание речи» — сервис автоматического преобразования речи в текст. Механизмы распознавания доступны из встроенного языка «1С:Предприятие» и могут быть встроены в прикладные решения 1С для оптимизации бизнес-процессов: голосовой ввод текста (письма, задачи, комментарии), расшифровка аудиозаписей, голосовое управление, обработка звонков и опросов.
Сервис постоянно развивается: новые улучшения и возможности сначала появляются в облачном режиме, а затем становятся доступными в локальном варианте. Поэтому качество распознавания в облаке и локально может отличаться.
Цена
Сервис доступен в двух вариантах: облачном и локальном. Локальное распознавание не тарифицируется (ограничение определяется ресурсами оборудования). В облачном режиме стоимость зависит от типа распознавания и длительности аудио и списывается во внутренних единицах тарификации.
| Тариф | Объем (примерно) | Цена в год |
|---|---|---|
| 100 000 единиц |
|
1 000 руб. |
| 1 000 000 единиц |
|
9 000 руб. |
| 10 000 000 единиц |
|
80 000 руб. |
| 50 000 000 единиц |
|
350 000 руб. |
Для ознакомления доступен тестовый тариф (3600 единиц) сроком до 1 года с момента активации и предоставляется однократно. Лимита обычно хватает примерно на 1 час потокового распознавания или на обработку аудиофайлов суммарной длительностью около 4 часов.
Как рассчитывается списание единиц
- Потоковое распознавание: 1 единица = 1 секунда. Списание выполняется с шагом 20 секунд (за неполные 20 секунд также списывается 20 единиц).
- Файловое распознавание: 1 единица = 4 секунды. Списание выполняется по каждому полному или неполному интервалу 20 секунд аудиофайла.
Преимущества
- Быстрый ввод текста голосом. Удобно для писем, задач, комментариев и текстовых блоков, особенно при работе с мобильных устройств или когда заняты руки.
- Расшифровка записей. Можно преобразовывать в текст записи звонков, совещаний и интервью (качество результата зависит от качества записи; для лучшего эффекта рекомендуется раздельная запись каналов собеседников).
- Голосовое управление. Сценарии управления интерфейсом по командам: открытие форм, поиск, построение отчетов, заполнение реквизитов.
- Поддержка отраслевой терминологии. В потоковом режиме можно передавать “грамматику” и специфичные термины (ФИО, названия номенклатуры, контрагентов) для более уверенного распознавания.
- Речевые сценарии для сервисных процессов. Подходит для роботизации звонков, опросов, голосовых систем самообслуживания и речевой аналитики.
Совместимость и требования
- Готовые сценарии использования: 1С:Документооборот 3 (диктовка текста писем, задач, отчетов и резолюций, голосовой подбор адресатов).
- Облачный режим: доступен средствами встроенного языка платформы «1С:Предприятие 8» начиная с версии 8.3.23 и может быть встроен в любое пользовательское приложение 1С.
- Обязательное условие: программа 1С, в которую встраивается сервис, должна быть на официальной поддержке.
Рекомендованные ресурсы для локального распознавания
- x64: Intel Core i5 / AMD Ryzen 5 и выше, оперативная память 12 ГБ и более.
- x32: Intel Core i5 / AMD Ryzen 5 и выше, оперативная память 4 ГБ и более (качество распознавания на x32 снижено).
Видео про сервис 1С:Распознавание речи
Основные возможности
Потоковое распознавание
Аудио передается в режиме реального времени, а распознанный текст возвращается частями с заданным интервалом. Удобно для диктовки текста и голосового управления.
- В облачном режиме длительность одного сеанса потокового распознавания ограничена 120 минутами.
- В локальном режиме ограничений по длительности сеанса нет.
Файловое распознавание
Аудиофайл отправляется на обработку, а результат формируется с задержкой, зависящей от длительности записи и загрузки сервиса.
- Поддержка многоканальных аудиозаписей: каждый канал распознается и тарифицируется отдельно.
- Поддерживаемые форматы: WAV (signed 16 bit little-endian), Opus (в контейнере OGG).
- Частота дискретизации: 8–48 кГц.
- Ограничения: до 1 ГБ и до 4 часов на файл.
- Результаты доступны для скачивания в течение 7 суток после выполнения задания.
Разделение по спикерам
Функция позволяет получить расшифровку аудиозаписи с разделением текста по участникам разговора. Подходит для собеседований, опросов, совещаний и оценки качества звонков.
Языки
Поддерживаются русский и английский языки. Перечень доступных языков может расширяться.