![]() |
Голосовое управление машиной на русском языке
Во многих машинах сегодня есть голосовое управление, но работает оно всегда ужасно.
Надо нажимать кнопочку, потом говорить определенную команду. Распознавание не всегда срабатывает, списки команд запомнить сложно. Я хочу управлять машиной более свободно, чтобы мочь сказать фразу в любой момент, без предварительной активации. И чтобы пассажир мог сказать. И чтобы команды не заучивать. Казалось бы, это очень сложно? Но у меня есть домашний проект, который мог бы с этим справиться. Собственно, вот он. Что хорошо: интернет не требуется, шума не боится. Язык команд может быть очень развитыми. Например, таким (тут другой движок распознавания речи, не тот, что в первом ролике - его я в машину ставить не хочу). Что плохо: работает пока только под windows, x86 и прочие сопутствующие... Собственно вопрос к сообществу: интересна ли такая технология в машине? Что бы вы сделали, будь у вас действительно качественная система голосового управления? Может быть только одного меня коробит, что мой автомобиль со мной не здоровается. |
Можно про движек распознавания по подробнее?
Про Гугл не спрашиваю, так как Вы написали что интернет не используется. Вы используете софт от компании Nuance Communications? Или своя Нейронная сеть? Обучалась каким количеством дикторов? |
Посмотрел первое видео и хотел уже автора банить :) Как-то не убедительно было.
После второго видео понял, что разработка реальная. Особенно после того как продукт добрался до инета и популярно объяснил, почему Путин краб :) Rai220, давай подробности! |
интересно....подробности будут?
|
Я думаю что он ищет спонсора и обьявление все таки рекламное.
Посмотрим, может быть я ошибаюсь и автор появится |
Цитата:
По функционалу вторая ссылка соизмерима с Siri, но вот какова нагрузка на комп, если мы не используем кнопки активации и "волшебные слова" я не могу оценить. Вообщем, будем поглядеть :) |
|
Разработка не фейк, банить не надо :) Собственно, в англоязычном сегменте таким распознаванием никого не удивишь.
Распознавание речи использует решение от Microsoft. От меня к нему добавилась только правильная настройка и знание о том, как его готовить. Обучение компьютера не требуется, обучение человека в принципе тоже, но одни понимает идеально, других хуже. Вот ребенка моего (3.5г), понимает с десятого раза. Требования к компьютеру умеренные. Думаю, заработает на любой машине, где можно поставить windows 7 и .net 4.5. На ARM, конечно, это никак не портировать, но в данный момент я как раз работаю над проектом, который будет иметь аналогичный функционал на Cortex A10. А вот требования к микрофонам серьезные. Для дома нужен очень чувствительный микрофон с АРУ. Я использую контроллер Kinect c решеткой из 4-х микрофонов. В машине для водителя можно обойтись более дешевыми решениями. Но вот простого микрофона будет недостаточно совершенно точно. Нужно ориентироваться на цену 1500-2000 рублей в рознице. Я не очень хочу выкладывать само решение в открытом виде, так как хочется привлечь под него деньги и сделать стартап - либо про умный дом, либо про умный автомобиль. Но инвесторы в очередь не выстраиваются, а сделать что-то хорошее хочется :) Поэтому хочу написать бесплатный модуль для голосового управления чем-либо. Собственно, хочется оценить, применимо ли это к CarPC, насколько распространен на них windows (подойдет только win 7 и выше) и чем в машине хотелось бы управлять. Цитата:
|
Система для управления умным домом уже есть и судя по их форуму она не не пользуется огромным спросом
http://www.youtube.com/watch?v=YFATn...layer_embedded |
Читал про голосовое и умный дом в частности на форумах в ознакомительных целях и спросом действительно не пользуется. У людей очень разные понятие "что нужно для счастья" в доме. А ценники порой не адекватные. И нужно изначально закладывать инфраструктуру коммуникаций по дому (проводку), что означает порой полный ремонт дома. По видео выше видно, что это идеализированное представление, в реальности, думаю, работает хуже. И постоянно произносить кодовое слово (тоже Ева) задолбает. Даже в авторском варианте пауза для распознавания довольно большая и как сам пишет распознает одних нормально, а других с 10 раза, по этому скажем меня это точно бы вывело бы из себя после третьего повтора команды ))).
В авто тоже можно попробовать распознавалку, но я не вижу особого смысла в этом ибо не так много нужно совершать действий в авто, а тем более повторяющихся операций (я не беру в расчет дергание коробкой). Конечно можете выложить библу в ознакомительных целях. Даже самому стало немного интересно. Скажем постановка на охрану(запуск двигла и тд) голосом у многих прохожих вызовет шок. А тем более чикса приятным голосом дублирует команды(правда её еще нужно записать) ))) |
Меня от умного дома остановило только одно - ремонт хороший, а для того, чтобы сделать все красиво необходимо дофига коммуникаций заново проложить :( А если на радиореле строить - без штанов останешься.
Поэтому остановился пока на банальной видеорегистрации с возможностью удаленного просмотра. |
Цитата:
например: "Ева, включи свет" Мало того можно говорить что угодно, но главное произнести в предложении триггер и команду, например: "Евачка дура, давай включай быстрее свет" или так "включай быстрее свет Евачка тупица" Все это реализовал на роутере WR703N, но так как я с линуксом пока еще на Вы, то не могу разобраться с драйвером звуковой карты. При ресемплировании тормозит, а без ресемплирования получается огромной длины фаил, что приводит к большим паузам между командой и ее выполнением Как настроить драйвер Alsa что бы по дефолту частота была 8000Гц , а не 44000 Гц я не знаю. |
Так вот и вопрос...нужно обучать систему на корневые составляющие слова или сама поймет? Типа включи, включай, вкличинах свет(освещение, люстру)?
И самое главное какая помехозащищенность в распознавание скажем при работающем телеки (радио и тд)? |
Если говорить о собеседнике, то он сам поймет, если его этому обучали в процессе общения
Если рассматривать командный процессор , то нужно будет написать корни всех возможных команд и триггеров в конфиге Цитата:
При средней громкости телевизора работает нормально, ложные срабатывания где то 10% |
Цитата:
Цитата:
Цитата:
Гугл плохо подходит для умного дома как раз потому, что распознать что-либо на расстоянии с ним очень проблематично. Попробуйте записать голос с трех метров и распознать - ничего не получится. Помехозащищенность конкретно в моем случае спорная. Простые шумы вроде, вроде звука вытяжки или даже пылесоса особо не мешают. Но вот если в одной комнате кто-то болтает, то отдать системе команду практически невозможно. Необходимо, чтобы за пару секунд до команды все остальные люди перестали громко говорить хотя бы в течении пары секунд. С телевизором скорее всего будет та же ерунда. В машине с этим проще бороться, т.к. мы точно знаем, где сидит "командир" и можем навести на него микрофоны. |
В том то и проблема, что в авто может находится не один человек...ну скажем дети на заднем сиденье и сказать что бы они замолкли, а то я буду заклинание произносить с первого раза вряд ли получиться ))).
По этому для продвижения на рынок в том виде, в котором оно сейчас есть мало перспективно...игрушка и не более. А в нашей стране люди хотят сегодня лимон вложить, но завтра (в буквальном смысле слова) уже получить десять и не о каких годах внедрения и речи быть не может! Зы. В видяхе пылесос какой то медлительный ))) |
Цитата:
Цитата:
Цитата:
Цитата:
|
Я познакомился с разработчиками iCar DS и решил попробовать сделать плагин голосового управления для этой системы. Но прежде всего буду проводить "полевые испытания" того, как система себя чувствут в автомобиле с точки зрения её акустического комфорта.
Сегодня собрал "автомобильную" версию словаря, которая позволяет командовать светом. Вот она: http://www.youtube.com/watch?v=v0_83xKzCco Теперь вопросов к скорости реакции лично у меня нет. К "ключевым словам" вне контекста тоже очень устойчива. В примере словарь описывает 1500 выражений, отличающихся по смыслу и около 10 000 различных выражений. Всякие окончания (два-две-двух) фильтруются как погрешность. Осталось проверить на улице. P.S. Вопрос не в тему, но хотелось бы подключить эту штуку, напрямую к авто. Машина toyota prius 3. Кто-нибудь знает, есть ли шанс управлять в ней чем-нибудь с помощью elm327, или эта штука только читает? |
У Тойоты есть CAN и Avc-Lan
|
Первая проба подружить голос и CarDS в авто. Получается интересно, но точно есть, куда двигаться.
http://youtu.be/0U842AGUQBM |
Очень жизненно :) Т.е. я имею ввиду, что в условиях машины система ведет себя очень адекватно и предсказуемо :) И хоть на мой взгляд фраза "Включить навигацию" не сильно круче нажатия кнопки Navi на торпеде - идея безусловно имеет право на реализацию, да что там - просто здорово :)
Большой плюс этой системы будет тогда, когда она позволит голосом проговаривать не простые команды (которые сейчас дублируются физическими кнопками в авто), а гораздо более сложные. Ну, к примеру: - найти ближайшую заправку на маршруте и проложить маршрут через нее - сообщить мне, если мы будем проезжать недалеко от отделения Альфабанка Т.е. на сколько я понимаю - распознать голос тут будет не сложно, а вот заставить софт установленный в carpc сделать это будет весьма непросто. З.Ы. И это, аккуратнее при съемках за рулем.... Мало ли что - и ночью такие дебилы на дорогах попадаются, мама не горюй... |
Занятное видео,заманчивые перспективы для авто. Буду с интересом наблюдать за этой темой.
|
Rai220
Когда можно будет затестить ''управление''? |
Цитата:
Новости о ходе разработки буду выкладывать в этом топике. Только что протестировал работу с направленными микрофонами. Стало лучше. Система хорошо меня понимает, даже если я включаю музыку на 50% громкости (сложно, конечно, объяснить, сколько это в дБ... у меня штатная тойотовская система на 8 колонок с усилком. 50% это довольно громко, просто так столько не включаю). Если по радио идет сплошная болтовня, то допустимая громкость снижается до 40%, что тоже неплохо. Работа с микрофонами продолжается. Вот видео, где система отвечает на вопросы о регионах (что за регион 197?). |
А микрофон на webcam Logitech не тестил?
|
Цитата:
(Кстати, чуть оффтоп - у меня действительно получилось распознавать гуглом с пяти метров! Правда только в небольших комнатах с большим количеством мебели. Чуть места становится больше, реверберация начинает всё запарывать). |
Цитата:
Думаю эта интересная феничка(безопастного управление компом, во время движения) многим понравится, и тем более у кого нет рулевых кнопок, и джостиков. |
Цитата:
|
+1. Ох как хочется уже потестить)))
|
Rai220 у меня есть еще стимул для применения в своей сфере ( системы безопасности) Прикольно будет если охранник будет брать под охрану здание голосом)))
|
Цитата:
Тоже работаю с этим. Только синтезом. |
А вообще распознание речи в машине - дело проблематичное.
Например у меня постоянно ОРЕТ музыка. И что можно распознать на таком фоне? И я не одинок. |
Цитата:
|
Цитата:
Не один ТС озадачен этим :-) |
Цитата:
Цитата:
|
Цитата:
Так там все просто, нажал кнопку на руле, все что играло, сразу заткнулось и в ответ приятный женский голос предлагает, что бы я голосом надиктовал команду |
Цитата:
Некоторые функции находятся аж на третьем уровне вложенности, команды надо запоминать, т.к. если читать их с экрана, то смысл теряется. А еще кнопка на руле - вещь не удобная, т.к. в повороте на неё нажимать не удобно (а ведь бывают и затяжные повороты (баблочка + пробка)). В итоге я в этой системе использую только команду "домой", хотя она позволяет и выбирать категории POI и музыкой рулить по всей программе и по телефону звонить. |
Цитата:
То что нужно - ученые уже разработали. Несколько лет назад роботы ездили по США и вполне успешно. Массового пользователя сложно заинтересовать инновациями. Потому как людям что надо от автомобиля: * чтобы перевез попу из точки А в точку Б - большинству * чтоб был повыше, дабы не цеплять бордюры - для девушек * чтоб рычал и пшыкал - для стритейсеров * чтоб в нем было много места, 4вд - семейный * чтоб был крутой - для имиджа * джип - типа круто, даже если все время по городу ездить * чтоб просто ездил и не ломался - низкобюджетный * чтоб был вот такого цвета - для капризных * ну и частные случаи там оффроудеры всякие Вот такие сейчас тенденции на автомобильном рынке. Большинству по-барабану всякие там няшечки, рюшечки и прочее. У меня многие видели в машине комп - но вряд ли кто себе такое же захотел. Ибо весь тюнинг музыки как проходит в большинстве случаев - пойти на рынок/магазин и купить другую магнитолу. Если вообще не мп3-фм-модулятор. Говорю как человек, который профессионально приобретает автомобили несколько лет. Что хотят люди от автомобиля мне куда виднее. Вообще я делаю подобную вещь. Давай спишемся? |
неужели тема заглохла?
|
Цитата:
Я был бы очень рад, если бы нашлись желающие проверить работу программы, показанной выше, которая отвечает на вопрос "что за регион XXX"? |
Часовой пояс GMT +4, время: 14:11. |
Работает на vBulletin® версия 3.8.4.
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Перевод: zCarot