СЕРВИС-ЦЕНТР КРОКУС
+7 (959) 144-54-54


История систем распознавания речи

 Диалог с компьютером может показаться чем-то забавным на первый взгляд. Однако тут скрывается очень большая работа многих ученых и специалистов - математиков, программистов, лингвистов, логиков. Ведь проблема распознавания речи играет огромную роль в общении человека с машиной и является чрезвычайно серьезной.

 

В восьмидесятых и девяностых годах минувшего столетия в фантастических фильмах часто показывали сцены где демонстрировалась технология управления техникой с помощью голосовых команд. Например, в очень популярным на тот период фильме «Назад в будущее 2», есть эпизод в котором Мартин МакФлай входя в комнату, включает телевизор и переключает каналы используя лишь свой голос и ничего более. Тогда это казалось весьма чем-то фантастическим. Но вот прошли годы и сегодня подобное явление достаточно обыденно. Однако история и развитие этой отрасли весьма не простое. На это ушло десятки лет, труд сотни тысяч людей и, естественно, многочисленные инвестиции.

 

1952 год - год рождения систем распознавания речи. Виновником тому стала американская компания Bell Laboratories, являющаяся крупным исследователем в области электронных и компьютерных систем. Так вот, в этом году организация представила систему названую Audrey. Audrey не обладала словарным запасам в привычном для нас понимании, она оперировала только цифрами. Система обладала рядом ограничений, невыполнение которых снижало точность Audrey до 60-70 процентов:

  • Диктующий человек должен был быть мужчиной
  • Это человек должен был уже ранее работать с системой
  • Пауза между словами должна была составлять около 350 миллисекунд

Современному пользователю можно только, улыбнуться этим показателям. Но в реалиях того времени это поистине являлось достижением и первым шагом на пути понимания голоса человека машиной.

 

В 1962 год. На Всемирной выставке в Сиэтле произошла очередная знаменательная дата в развитии систем распознавания речи. Фирма IBM представила компьютер Shoebox, которая могла распознать шестнадцать слов на английском языке. Заметьте, на переход от цифры к слову понадобилось десять лет.

 

Вторая половина шестидесятых годов. В лабораториях США, СССР, Японии, Великобритании ведутся работы по разработке систем распознавания речи способной различать отдельно произнесенные звуки. Шаг за шагом, медленно, но уверенно технологии постепенно совершенствовались.

 

В 1971 год. Как всегда, перспективная технология обратила на себя внимание военных США. Были выделены средства министерством обороны на разработку и исследования в этой области. Результатом должен был стать продукт способный распознавать не менее одной тысячи слов и понимающий связную речь.

 

В 1972 год. На коммерческую основу было поставлено появившееся первое программное обеспечение систем распознавания речи. Программа называлась Vip-100, она в состоянии была распознать несколько сот слов, но не могла поддерживать связную речь. К тому же оставалась проблема, что и в предыдущих продуктах, предварительная «тренировка системы», то есть надиктовка слов.

 

К 1976 год. В этот год было разработано шесть систем, которые более или менее, соответствовали необходимым критериям. На тот период, по мнению специалистов, самой удачной, была «Гарпия», разработанная исследовательским центром при Университете Карнеги-Мелона. Она также нуждалась в «тренировке». Обрабатывала за пять минут четырех секундные предложения. Обладала словарным запасом в 1011 слов, понимала связную речь и обладала эффективным алгоритмом поиска правильных конструкций. Эти качества позволили ей обогнать всех своих предшественников и по праву дали ей звание самой лучшей.

 

В 80-е годы. В этот период идет бурное развитие систем распознавания речи. Лидером выступают такие американские компании как IBM и Bell Laboratories. Используя новые технологии и подходы, удалось до нескольких тысяч слов увеличить их словарный запас. Интересы фирмы IBM были направлены на исследование в направление непрерывных последовательностей из N элементов заданной речи и тренируемых систем. А Bell Laboratories занималась разработкой систем способных работать с акустической дисперсией, акцентами и не требующих предварительных тренировок.

Главную роль в развитии этих систем в 80-ых годах сыграл метод распознание неизвестных параметров, на основании заданных. Проще говоря, системы распознавания речи учили распознавать контекст на самом примитивном уровне и узнавать слова на основании неполных данных, вызванных помехами, акцентом и т. п.

Выпускается приложение Kurzweil text-to-speech.

 

В 1987 год. Выходит первый коммерческий продукт для широкой общественности. Это  кукла Julie Talking Doll с функцией распознавания детской речи на основе тренировки. В добавок она могла «читать» специальные книги из комплекта, пользуясь сенсорами на пальчиках. Кукла реагировала на простые действия, которые с ней происходили.

 

В 1990 год. Вышла Dragon Dictate, это коммерческая программа для обычных пользователей, с весьма скромными качествами, за которые пользователь должен был заплатить $9тыс. Даже для нашего времени это уж слишком…

 

В 1996 год. Появился первый голосовой портал –VAL от BellSouth. Система занималась тем, что обрабатывала телефонные справочные запросы, а также искала информацию для покупателей и абонентов по заданным услугам и торговым маркам.

 

В 1997 год. Свет увидел улучшенную новую версию программы Dragon – NaturallySpeaking. Она уже была способна распознавать нормальную человеческую речь. Около ста слов в минуту и, что не могло не радовать, цена снизилась до $695.

 

В 2001 год. Microsoft решает выпустить свою систему распознавания речи, которая работала с Office XP. Несмотря на то, что присутствовала «тренировка», нечеткость произношения и т.п. данная программа стала поистине массовой.

 

В 2002 год. Google запускает  Voice Search, предназначенный для голосового поиска в сети интернет. Однако данную разработку пришлось сразу же свернуть. Все дело в том, что бы выполнять данный поиск, надо было позвонить на специальный номер, а это уж совсем неудобно. Но Google не опустил рук, и продолжал разработки в этом направлении. И надо сказать весьма успешно, как показало будущее.

 

В 2005 год. Сенсация - выходит  в свет первая операционная система с функцией распознания речи. Это были  Mac OS X Tiger. Программа VoiceOver была способна не только на распознание речи, в дополнение к этому она являлась её синтезатором. Эта программа могла прочитать содержимое текстовых документов, почтовых и веб-страниц. Большим плюсом было то, что она являлась спикеронезависимой, и могла работать с несколькими пользователями одновременно.

 

В 2006 год. Microsoft желая обойти своего вечного конкурента Apple, выпускает операционную систему с полноценной поддержкой функции распознания речи Windows Vista.

 

В 2009 год. От Google выходит приложение Voice Search для iPhone. Работа данного приложения опирается на заоблачные вычисления своих суперкомпьютеров. Эти вычисления позволили провести крупномасштабный анализ данных поиска совпадений между огромным числом голосовых запросов пользователей и их словами. Эта процедура способствовала быстрому росту и совершенствованию системы.

 

Постепенно Voice Search закрепляет за собой славу самого популярного приложения от Google для мобильных устройств. Вскоре появляется версия и для Android.

 

В 2011 год. Google, учитывая ошибки прошлых лет, в браузере Chrome интегрировали функцию распознавания голоса. Были устранены ненужные звонки и прочие неудобства. Сегодня в базе насчитывается около 230 миллиардов слов на многих языках мира.

 

14 октября 2011 года. Apple начинает массовую продажу своих iPhone 4S с установленной программой Siri. Это программа не просто распознает речь, она выступает в качестве персонального виртуального помощника, способного обрабатывать естественную речь, отвечать на заданные вопросы и предоставлять рекомендации. Идет живое общение между пользователем и аппаратом, она даже может отвечать шутками на курьезные вопросы. Изначально программа поддерживает английский, французский и немецкий языки. В дальнейшем были добавлены китайский, итальянский, корейский и испанские языки.

 

Прогресс, однако, не стоит на месте и в последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. Общение с голосовым порталом становится более естественным, так как выбор в нём может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд и при этом система распознавания распознает голос любого человека.


Следующим шагом технологий распознавания речи можно считать развитие так называемых Интерфейсов Безмолвного Доступа (Silent Speech Interfaces (SSI)). Эти системы обработки речи базируются на получении и анализе речевых сигналов на ранней стадии артикулирования.

 

 

Александр Григорьев ЦСО "Крокус"


Наши новости:

    23 февраля и 8 Марта - 20.02.2024

  • Поздравляем защитников и их милых дам с 23 февраля и 8 Марта. Желаем Вам мира, здоровья, любви и достатка! Пусть Ваша жизнь будет наполнена радостью и счастьем! Покупайте у нас подарки своим любимым и близким со скидкой до 1000 рублей.
  • Обновленный торговый зал - 02.06.2023

  • У нас расширение ассортимента и увеличение ветрин в торговом зале, чтобы покупателям было комфортно и удобно. В просторном помещении можно спокойно и внимательно выбрать устройство, рассмотреть его, а при необходимости получить от консультанта квалифицированную помощь. Появилась возможность выставить ещё больше разнообразной продукции. Приходите, «Крокус» ждет Вас!
  • КОПИЦЕНТР "КРОКУС" - 31.05.2023

  • КОПИЦЕНТР расширил ассортимент канцелярских товаров и возможность оказания широкого спектра услуг: Ксерокопирование и сканирование; Цветная и черно-белая печать документов, фотографий, чертежей и карт любых форматов, с различных носителей; Набор текстов; Создание сувенирной продукции; Ламинирование и переплет; Изготовление любой полиграфической продукции. ЗАКАЗ ОФОРМЛЯЕТСЯ практически В ТОТ ЖЕ ДЕНЬ. Мы рады видеть Вас в нашем КОПИЦЕНТРЕ!
  • КРАСНОЛУЧСКАЯ ГОРОДСКАЯ ТОРГОВАЯ ПЛОЩАДКА Online - 29.07.2020

  • Делайте покупки на 06432.su не выходя из дома! Тут дешевле, чем в розницу! Покупку привозят на дом, день в день и совершенно БЕСПЛАТНО!
  • ОНЛАЙН-ЗАЯВКА - 24.04.2020

  • ПРИНИМАЕМ ОНЛАЙН ЗАЯВКИ, Через Viber, WhatsApp, Telegram: 050-044-41-44 или электронную почту: krokus.servis@gmail.ru , НА ИЗГОТОВЛЕНИЕ: ВИЗИТОК; ПЕЧАТЬ ФОТОГРАФИЙ; ШИРОКОФОРМАТНУЮ ПЕЧАТЬ А0; НАБОР И ПЕЧАТЬ ДОКУМЕНТОВ; БОЛЬШОЙ ОБЪЕМ КСЕРОКОПИЙ.   Расчет после выполнения работ! Осуществляем видеоотчет выполненных работ! На все СКИДКИ!
  • РЕМОНТ КОМПЬЮТЕРНОЙ ТЕХНИКИ с выездом за техникой на дом - 22.04.2020

  • РЕМОНТ КОМПЬЮТЕРНОЙ ТЕХНИКИ стал проще! У Вас сломался компьютер, ноутбук или принтер? Вам достаточно только позвонить нам и мы — ПРИЕДЕМ, ЗАБЕРЕМ в ремонт, ОТРЕМОНТИРУЕМ и ВЕРНЕМ ОБРАТНО из ремонта на дом. Оплата на месте после доставки из ремонта.
  • Online-ВИДЕО-КОНСУЛЬТАЦИИ - 22.04.2020

  • Позвоните нам через: Viber, WhatsApp, Telegram, Skype. И мы - расскажем, покажем, в живую протестируем любой товар!
  • Доставка от 1000 руб БЕСПЛАТНО - 22.04.2020

  • Доставим любую мелочь! Доставка от 1000 рублей - БЕСПЛАТНО! НАДЕЖНО, БЫСТРО, ЕЖЕДНЕВНО!
  • ONLINE-SHOPPING НОВОЙ И КОМИССИОННОЙ КОМПЬЮТЕРНОЙ ТЕХНИКИ! Доставка БЕСПЛАТНО! - 07.04.2020

  • ВНИМАНИЕ! ТЕПЕРЬ ПОКУПАТЬ НАШ ТОВАР СТАЛО ЕЩЕ ПРОЩЕ! Сделать это можно не выходя из дома - через соцсети "ВКонтакте" или "Одноклассники" (одним кликом QR кода), а также через Онлайн магазин ЦСО Крокус: http://shop.cso-krokus.com.ua. Оплата - при доставке товара на дом.
  • УЧЕБНАЯ КАРТА - 12.03.2020

  • Теперь обучение стало ещё доступнее!   Обладатель УЧЕБНОЙ КАРТЫ будет иметь скидки на КОМПЬЮТЕРНЫЕ КУРСЫ. Карту можно получить БЕСПЛАТНО при покупке компьютерной техники в нашем торговом зале! Мы заботимся о том, чтобы делать покупки в нашем магазине было выгодно для Вас!

Copyright © Сервис-Центр Крокус, 2010-2024
Карта сайта
Городской:    (06432)  34 777
Мобильный:  (050) 0 444 1 44

Онлайн консультация
Учебный центр
Торговый зал
Технический центр
show
123