SlideShare a Scribd company logo
Платформа построения
голосовых диалоговых
интерфейсов
ООО «Голосовая Платформа», ГК S2S Next
2
АНАЛИЗ РЫНКА
• По данным отчета «Automatic Speech Recognition Applications Market 2010-
2013», на сегодняшний день мировой рынок речевых технологий оценивается в
$900 млн. Рост рынка составляет ок. 28% в год.
• Российский рынок систем распознавания речи относительно невелик. По
оценке компании "Стэл – компьютерные системы“, его объем составляет
порядка $10 млн, а динамика – ок. 15-20%. В компании «ЦРТ» более
оптимистичны – там оценивают российский рынок технологий голосовой
верификации и распознавания слитной русской речи в $25 млн.
• Ры��ок интенсивно развивается,
однако до сих пор в мире не
существует достаточно простого
и удобного в использовании
средства разработки речевых
интерфейсов.
3
ПРЕДПОСЫЛКИ
Люди все чаще сталкиваются с голосовыми интерфейсами, в основном, при
взаимодействии с системами клиентского обслуживания. Может показаться, что
качество таких систем всецело зависит от качества распознавания речи. Однако
есть не менее важный фактор, влияющий на их эффективность – качество диалога в
целом. Этот параметр зависит, в свою очередь, от успешности завершения работы
системы и, что немаловажно, от удовлетворенности пользователя.
Вышесказанное делает актуальной проблему построения диалога, которая на
практике оказывается нетривиальной. При создании диалогового интерфейса
необходимо учитывать множество правил и рекомендаций, которые нельзя
назвать очевидными для разработчиков, постоянно не имеющих дело с речевыми
системами. Кроме того, им необходимо самостоятельно провести большой объем
специфических работ: по созданию диалога, интеграции с системами синтеза и
распознавания речи, формированию баз знаний и т.д.
Все это обуславливает необходимость создания универсального и доступного для
разработчиков инструмента разработки речевых диалоговых интерфейсов.
ГОЛОСОВАЯ ПЛАТФОРМА
• Платформа является интеграцией трех больших технологий: синтеза речи (TTS),
распознавания речи (ASR) и поддержки диалога. Платформа также подключает
другие голосовые технологии (голосовая биометрия, шумоподавление и т.д.).
• Платформа имеет собственные базы знаний, стандартные корпуса и словари, а
также шлюзы для взаимодействия с внешними онлайновыми
информационными ресурсами и клиентскими базами данных.
• Основное конкурентное преимущество Платформы – наличие собственного
диалогового движка, созданного и развиваемого компанией,
взаимодействующего с технологиями внешних поставщиков движков
распознавания и синтеза речи.
• Разработка Платформы и коммерческих проектов ведется параллельно,
коммерческие решения создаются по мере развития технологий, а также
усложнения и расширения функционала.
• Коммерциализация технологий Платформы планируется как за счет создания
собственных коммерческих продуктов, так и за счет коммерческого
использования Платформы сторонними разработчиками.
4
КОММЕРЧЕСКОЕ ПОЗИЦИОНИРОВАНИЕ
5
Коммерческое позиционирование проекта формируется в двух основных
направлениях:
1. Разработчики Платформы будут реализовывать собственный кластер
уникальных голосовых сервисов, приложений и услуг, в том числе:
• Решения для телефонии,
• Мобильные приложения,
• Корпоративные голосовые сервисы,
• Голосовые интерфейсы для существующих сервисов и т.д.
2. Через систему лицензий внешние разработчики будут реализовывать на
Платформе интерактивные голосовые интерфейсы к собственным приложениям
и разработкам.
6
ПОРТФЕЛЬ ПРОЕКТОВ
На сегодняшний день на базе Платформы разработаны или находятся в процессе
разработки прототипы следующих систем:
BusinessVox – система голосовой маршрутизации входящих звонков.
MedVox – голосовая система автоматической телефонной записи на прием к врачу и
исходящего обзвона пациентов с целью напоминания о приеме.
MedVox.Doc – голосовое приложение, предназначенное для оперативного
занесения врачом с помощью голоса итогов приема пациента в его электронную
мед. карту.
PhoneLine Manager – голосовой сервис оптимизации работы с телефонными
очередями, состоящий из системы обратного дозвона и сервиса автоматического
информирования по стандартным запросам.
LogVox – голосовой сервис ежемесячного сбора показаний счетчиков учета
потребления коммунальных услуг.
BankVox – телефонный сервис голосового поиска ближайшего отделения банка
или банкомата по станции метро или улице.
7
ДИНАМИКА РАЗВИТИЯ ПРОЕКТА
 Разработан прототип диалогового ядра.
 Разработана и внедрена в ГК «РТИ-Ситроникс» система автоматической
голосовой маршрутизации входящих телефонных вызовов OfficeVox.
 Разработана и внедрена в МИАЦ Иркутской области система голосовой записи
на прием к врачу MedVox.
 Созданы прототипы коммерческих систем по следующим направлениям:
• корпоративная телефония,
• медицина,
• банковский сектор,
• сектор ЖКХ.
 Получены свидетельства о государственной регистрации систем и баз знаний,
входящих в Платформу.
8
ИНТЕЛЛЕКТУАЛЬНАЯ СОБСТВЕННОСТЬ
Существующие свидетельства о государственной регистрации:
• № 2011618581 «Программа построения текстового диалога на основе ключевых
слов»;
• № 2012613366 «Голосовая диалоговая платформа»;
• № 2013617971 «Голосовая диалоговая система записи на прием к врачу»;
• № 2012620482 «База данных распространенных русских фамилий в женском и
мужском варианте, подготовленных по стандартам SAMPA»;
• № 2012620510 «База данных материала для тестирования систем синтеза и
распознавания речи для оценки качества»;
• № 2012615028 «Автоматизированное рабочее место для работы с системой
построения текстового диалога на основе ключевых слов».
Планируемые патенты:
• Патент на способ организации естественного диалога человека и машины с
использованием системы построения семантического дерева, РФ,
предполагаемая дата подачи – апрель.
КОНКУРЕНТНЫЕ ПРЕИМУЩЕСТВА ПЛАТФОРМЫ
9
• Стоимостное предложение;
• Готовые библиотеки диалогов и баз знаний для различных приложений;
• Простота и удобство использования за счет дружественного пользовательского
интерфейса;
• Простота и удобство доступа к ресурсам Платформы;
• Интеграция с различными системами синтеза и распознавания речи;
• Возможность выбора систем синтеза и распознавания, наиболее подходящих
под конкретные функциональные задачи и бизнес-модели;
• Качественная лингвистическая проработка заготовок для диалогов;
• Ориентация на построение естественного диалога;
• Интеллектуальный анализ звонков;
• Высокое качество результатов голосового диалога;
• Многопрофильность и возможность использования наработок в разных сферах.
КОМАНДА
10
 Ксения Емельянова, Генеральный директор
Закончила МГТУ им. Н.Э. Баумана по специальности «Информационные системы и
технологии». Богатый опыт работы в качестве директора по проектам. Интересы: IT,
компьютерная лингвистика. Аналитика, разработка проектов в области компьютерной
лингвистики, обучение персонала.
 Александр Клячин, Руководитель бизнес-направления
Закончил ИСА при МГУ им. М.В. Ломоносова. Имеет степень Global Executive MBA, The Fuqua
School of Business, Duke University. Работает в области компьютерной лингвистики более 10
лет, имеет большой опыт управления проектами в области ИТ, телекоммуникаций,
компьютерной лингвистики.
 Борис Лобанов, Научный консультант
Закончил Минский радиотехнический институт, д. т. н., Институт электроники и
вычислительной техники АН Латвийской ССР. Член ESCA, председатель Белорусского
подкомитета ISCA. Академик Международной академии информационных процессов и
технологий.
 Александр Харламов, Руководитель НИОКР
Закончил МЭИ, «Атомные станции и энергетические установки», д.т.н., МГУ им. Ломоносова.
Старший научный сотрудник ИВНД РАН, ведущий научный сотрудник ГНИИ информационных
технологий и телекоммуникации «Информика», начальник лаборатории ФИРО, начальник
отдела ООО «Юникор микросистемы», главный редактор журнала «Речевые технологии».
Ксения Емельянова
ksenia@speechplatform.ru
СПАСИБО ЗА ВНИМАНИЕ!

More Related Content

Голосовая Платформа

  • 2. 2 АНАЛИЗ РЫНКА • По данным отчета «Automatic Speech Recognition Applications Market 2010- 2013», на сегодняшний день мировой рынок речевых технологий оценивается в $900 млн. Рост рынка составляет ок. 28% в год. • Российский рынок систем распознавания речи относительно невелик. По оценке компании "Стэл – компьютерные системы“, его объем составляет порядка $10 млн, а динамика – ок. 15-20%. В компании «ЦРТ» более оптимистичны – там оценивают российский рынок технологий голосовой верификации и распознавания слитной русской речи в $25 млн. • Рынок интенсивно развивается, однако до сих пор в мире не существует достаточно простого и удобного в использовании средства разработки речевых интерфейсов.
  • 3. 3 ПРЕДПОСЫЛКИ Люди все чаще сталкиваются с голосовыми интерфейсами, в основном, при взаимодействии с системами клиентского обслуживания. Может показаться, что качество таких систем всецело зависит от качества распознавания речи. Однако есть не менее важный фактор, влияющий на их эффективность – качество диалога в целом. Этот параметр зависит, в свою очередь, от успешности завершения работы системы и, что немаловажно, от удовлетворенности пользователя. Вышесказанное делает актуальной проблему построения диалога, которая на практике оказывается нетривиальной. При создании диалогового интерфейса необходимо учитывать множество правил и рекомендаций, которые нельзя назвать очевидными для разработчиков, постоянно не имеющих дело с речевыми системами. Кроме того, им необходимо самостоятельно провести большой объем специфических работ: по созданию диалога, интеграции с системами синтеза и распознавания речи, формированию баз знаний и т.д. Все это обуславливает необходимость создания универсального и доступного для разработчиков инструмента разработки речевых диалоговых интерфейсов.
  • 4. ГОЛОСОВАЯ ПЛАТФОРМА • Платформа является интеграцией трех больших технологий: синтеза речи (TTS), распознавания речи (ASR) и поддержки диалога. Платформа также подключает другие голосовые технологии (голосовая биометрия, шумоподавление и т.д.). • Платформа имеет собственные базы знаний, стандартные корпуса и словари, а также шлюзы для взаимодействия с внешними онлайновыми информационными ресурсами и клиентскими базами данных. • Основное конкурентное преимущество Платформы – наличие собственного диалогового движка, созданного и развиваемого компанией, взаимодействующего с технологиями внешних поставщиков движков распознавания и синтеза речи. • Разработка Платформы и коммерческих проектов ведется параллельно, коммерческие решения создаются по мере развития технологий, а также усложнения и расширения функционала. • Коммерциализация технологий Платформы планируется как за счет создания собственных коммерческих продуктов, так и за счет коммерческого использования Платформы сторонними разработчиками. 4
  • 5. КОММЕРЧЕСКОЕ ПОЗИЦИОНИРОВАНИЕ 5 Коммерческое позиционирование проекта формируется в двух основных направлениях: 1. Разработчики Платформы будут реализовывать собственный кластер уникальных голосовых сервисов, приложений и услуг, в том числе: • Решения для телефонии, • Мобильные приложения, • Корпоративные голосовые сервисы, • Голосовые интерфейсы для существующих сервисов и т.д. 2. Через систему лицензий внешние разработчики будут реализовывать на Платформе интерактивные голосовые интерфейсы к собственным приложениям и разработкам.
  • 6. 6 ПОРТФЕЛЬ ПРОЕКТОВ На сегодняшний день на базе Платформы разработаны или находятся в процессе разработки прототипы следующих систем: BusinessVox – система голосовой маршрутизации входящих звонков. MedVox – голосовая система автоматической телефонной записи на прием к врачу и исходящего обзвона пациентов с целью напоминания о приеме. MedVox.Doc – голосовое приложение, предназначенное для оперативного занесения врачом с помощью голоса итогов приема пациента в его электронную мед. карту. PhoneLine Manager – голосовой сервис оптимизации работы с телефонными очередями, состоящий из системы обратного дозвона и сервиса автоматического информирования по стандартным запросам. LogVox – голосовой сервис ежемесячного сбора показаний счетчиков учета потребления коммунальных услуг. BankVox – телефонный сервис голосового поиска ближайшего отделения банка или банкомата по станции метро или улице.
  • 7. 7 ДИНАМИКА РАЗВИТИЯ ПРОЕКТА  Разработан прототип диалогового ядра.  Разработана и внедрена в ГК «РТИ-Ситроникс» система автоматической голосовой маршрутизации входящих телефонных вызовов OfficeVox.  Разработана и внедрена в МИАЦ Иркутской области система голосовой записи на прием к врачу MedVox.  Созданы прототипы коммерческих систем по следующим направлениям: • корпоративная телефония, • медицина, • банковский сектор, • сектор ЖКХ.  Получены свидетельства о государственной регистрации систем и баз знаний, входящих в Платформу.
  • 8. 8 ИНТЕЛЛЕКТУАЛЬНАЯ СОБСТВЕННОСТЬ Существующие свидетельства о государственной регистрации: • № 2011618581 «Программа построения текстового диалога на основе ключевых слов»; • № 2012613366 «Голосовая диалоговая платформа»; • № 2013617971 «Голосовая диалоговая система записи на прием к врачу»; • № 2012620482 «База данных распространенных русских фамилий в женском и мужском варианте, подготовленных по стандартам SAMPA»; • № 2012620510 «База данных материала для тестирования систем синтеза и распознавания речи для оценки качества»; • № 2012615028 «Автоматизированное рабочее место для работы с системой построения текстового диалога на основе ключевых слов». Планируемые п��тенты: • Патент на способ организации естественного диалога человека и машины с использованием системы построения семантического дерева, РФ, предполагаемая дата подачи – апрель.
  • 9. КОНКУРЕНТНЫЕ ПРЕИМУЩЕСТВА ПЛАТФОРМЫ 9 • Стоимостное предложение; • Готовые библиотеки диалогов и баз знаний для различных приложений; • Простота и удобство использования за счет дружественного пользовательского интерфейса; • Простота и удобство доступа к ресурсам Платформы; • Интеграция с различными системами синтеза и распознавания речи; • Возможность выбора систем синтеза и распознавания, наиболее подходящих под конкретные функциональные задачи и бизнес-модели; • Качественная лингвистическая проработка заготовок для диалогов; • Ориентация на построение естественного диалога; • Интеллектуальный анализ звонков; • Высокое качество результатов голосового диалога; • Многопрофильность и возможность использования наработок в разных сферах.
  • 10. КОМАНДА 10  Ксения Емельянова, Генеральный директор Закончила МГТУ им. Н.Э. Баумана по специальности «Информационные системы и технологии». Богатый опыт работы в качестве директора по проектам. Интересы: IT, компьютерная лингвистика. Аналитика, разработка проектов в области компьютерной лингвистики, обучение персонала.  Александр Клячин, Руководитель бизнес-направления Закончил ИСА при МГУ им. М.В. Ломоносова. Имеет степень Global Executive MBA, The Fuqua School of Business, Duke University. Работает в области компьютерной лингвистики более 10 лет, имеет большой опыт управления проектами в области ИТ, телекоммуникаций, компьютерной лингвистики.  Борис Лобанов, Научный консультант Закончил Минский радиотехнический институт, д. т. н., Институт электроники и вычислительной техники АН Латвийской ССР. Член ESCA, председатель Белорусского подкомитета ISCA. Академик Международной академии информационных процессов и технологий.  Александр Харламов, Руководитель НИОКР Закончил МЭИ, «Атомные станции и энергетические установки», д.т.н., МГУ им. Ломоносова. Старший научный сотрудник ИВНД РАН, ведущий научный сотрудник ГНИИ информационных технологий и телекоммуникации «Информика», начальник лаборатории ФИРО, начальник отдела ООО «Юникор микросистемы», главный редактор журнала «Речевые технологии».