PCCar.ru - Ваш автомобильный компьютер - Голосовое управление машиной на русском языке

Спасибо всем, кто откликнулся и изъявил желание протестировать мою софтину! Выкладываю.

Только я почти уверен, что с первого раза система мало у кого заведется, т.к. компонентов в ней получилось немало, а протестировать её на чем-либо кроме парочки своих ноутбуков я не могу... (собственно, ради этого я сейчас и выкладываю).

Системные требования
1. OS Windows 7 home premium и выше. (Будет ли работать на Home basic и xp, надо проверять).
2. Веб-камера со встроенным микрофоном. Программа заработает и на обычном микрофоне, но распознаваться почти ничего не будет. На данный момент лучше всего работают камеры InPerson HD.
3. Установленный .NET 4.5. Скачать можно тут.

Инструкция по установке:
1. Качаем архив со всем необходимым, распаковываем.
2. Устанавливаем speech_platform_sdk.msi.
3. Устанавливаем ms_recognition.msi.
4. Устанавливаем RHVoice-v0.2.161-setup.exe
5. Распаковываем recognizer.zip в любое место.
6. Идем в настройки записи звука ОС и делаем микрофон камеры устройством записи по-умолчанию (правой кнопкой). В настройках камеры выставляем средний уровень записи и отключаем усиление (далее этими показателями можно поиграть для лучшего распознавания).
7. У хороших камер часто можно включить дополнительную обработку звука, которая находится на закладке "дополнительное". Если есть - отлично! Включаем!
8. Запускаем KinectMicrophone.exe, жмем activate.
9. Сказать голосом "что за регион NN" (цифры отдельно, например что за регион один-семь-семь, а не сто-семьдесят-семь) и в идеале услышать ответ. Процесс распознавания будет отражаться на экране. Цифры в скобочках означают достоверность распознавания. Система срабатывает на фразы с достоверностью >= 0.85, причем всякий мусор с достоверностью <0.5 она будет слышать всегда, даже в тишине. На него надо просто не обращать внимания (программа так и делает).

В машине
У меня лучше всего получалось распознавание, когда я взял камеру inPersonHD и закрепил её на водительском козырьке. При этом я включил у неё опцию формирования луча направленности (в камере 4 микрофона) и убавил чувствительность почти до минимума. Так камера стала слушать меня и игнорировать музыку и шум. Подозреваю, что для других камер такая модель поведения тоже может быть оптимальной. Демонстрация работы именно такой связки есть на последнем видео.

Есть подозрение, что так же очень хорошо система будет работать с сенсором kinect. Дома это так, но в машине я пока его не проверил, т.к. ему нужно дополнительное питание, а взять негде.

В данный момент я занимаюсь разработкой собственной микрофонной решетки с АРУ и поиском алгоритмов обработки для неё. С ней результат обещает быть в разы лучше.