Распознавание голоса

wdrakula
wdrakula аватар
Offline
Зарегистрирован: 15.03.2016

nik182 пишет:

это называть, что бы не травмировать твоё эго.

Ты же не математик, следовательно НЕ понимаешь ;)) Это не наезд и не троллинг. Констатация. Сорри.

Распознать несколько команд нет никаких проблем на любой современной платформе уровня малинка/апельсинка и смарты, что тоже самое.

А вот распознавание речи действительно требует огромных ресурсов.

В распознавании речи две задачи: 1- перевести голос в текст и 2- понять текст. Поскольку вторая не решена совершенно, то и решение первой пока не предвидится.

То, что делают в больших поисковых системах - Сири, Алиса, Алекса и Гугль ассистент - не распознавание речи, а перевод голоса в текст на основе обратотки колоссальных статистических данных. Не войс рекогнишн, а спич2текст конвершн, если на руглише.;)) Далее нейросеть пытается подобрать семантику, результат мы все знаем - с Алисой в тилипоне общались. Кто её еще дурой не обзывал? Поднимите руки! ;)))) А за ней вся мощь Яндекса!

Для домашнего голосового управления нужно узнавание нескольких команд. Самое "модное" решение на современных технологиях такое: обучается нейросеть на большом и мощном компе, а потом конвертируется в эмулятор нейросети на АРМ платформе в тилипоне или на малинке. Это если с разработкой и "по умному". Можно проще - есть несколько программ "старой закалки" еще без нейросетевых решений, просто анализ ритма, просодики и соотношения формантных частот, отнормированных, чтобы не зависеть от высоты голоса. Но это решения уровня 80-ых годов. Я еще изучал эти алгоритмы на факультативе. ;)) Очень древние. Форум по ардуино, описывать основы фонетики человеческой речи с математической точки зрения - не к месту.

Но твое утверждение о "настройке на один голос" устарело лет на 20,  это я тебе "говорю, как краевед" ;))). Классические программы распознавания голоса обучались манере произнесения фонем конкретным диктором. И потом преобразовывали голос в текст. Но это не единственные программы. Софт голосового управления не занимался анализом фонем, а сразу строил матрицы для команд. Коротких и четких команд, а это совсем иное дело.

nik182
Offline
Зарегистрирован: 04.05.2015

Что ж. Понятно, что имеешь в виду, говоря о бреде распознавания. Тут мнений может быть много. Я вообще не представляю как компьютер может понять человка ни имея интеллекта. Комп может отреагировать по заложенной человеком программе. 

А отставшие на 20 лет технологии это современное состояние уровня ардуины. У кого есть возможность на кластере сделать под себя эмулятор нейросети для АРМ? 

wdrakula
wdrakula аватар
Offline
Зарегистрирован: 15.03.2016

nik182 пишет:

А отставшие на 20 лет технологии это современное состояние уровня ардуины. У кого есть возможность на кластере сделать под себя эмулятор нейросети для АРМ? 

Ты что-то не так понял. На своем домашнем компе обучаешь нейросеть. На нем же её адаптируешь для эмулятора на ARM и запускаешь в своем тилипоне. Не нужно кластера. ТЫ ж не "Войну и мир" распознавать собрался? Записал варианты команд от все домашних и еще пары человек на диктофон, записал контрпримеры. Запустил обучалку. Готовую сеть нужно адаптировать к запуску на эмуляторе - убрать вычисления с плавающей точкой и еще по мелочам. Тоже есть готовые решения. Причем как раз для запуска на Распберри Пи.

Я этим постоянно НЕ занимаюсь и ссылки на софт не скину, сорри. У меня друзья есть, только у них видео распознавать нужно по задаче. Вот как  раз весь этот путь - сеть, обучение, адаптация и запуск на АРМ. Звук немного проще, чем видео. ;))

ЕвгенийП
ЕвгенийП аватар
Offline
Зарегистрирован: 25.05.2015

lilik пишет:
и отвечает громко на всю комнату ...
"А что я буду с этого иметь? Фильтр на питание поставить ещё перед прошлыми выборами обещал!"

rkit
Offline
Зарегистрирован: 23.11.2016

lilik пишет:

Впрочем, это Ркит шутит тонко так

Конечно шучу, блядь. Если сказать "ок, гугл, открой порнуху" в автобусе, то у всех загорятся телефоны и на них засветится порнуха. Так это работает. Инженеры гугла - такие тупые.

lilik
Offline
Зарегистрирован: 19.10.2017

В рамках  сообщения ТС про Осипова и моих сообщений (без всяких гуглов) именно так и сработает. 

Nadeo
Offline
Зарегистрирован: 26.03.2021

Вопрос к знатокам.

Знаю, что с bluetooth смартфона можно одновременно подключить несколько устройств в роде беспроводной клавиатуры\мыши, бт колонки, гарнитуры и прочее, но можно ли к модулю HC-06 подключить несколько смартфонов одновременно? Если можно, то ко всем ли модулям можно подключать несколько телефонов, какие могут быть проблемы?

rkit
Offline
Зарегистрирован: 23.11.2016

Nadeo пишет:

Вопрос к знатокам.

Знаю, что с bluetooth смартфона можно одновременно подключить несколько устройств в роде беспроводной клавиатуры\мыши, бт колонки, гарнитуры и прочее, но можно ли к модулю HC-06 подключить несколько смартфонов одновременно? Если можно, то ко всем ли модулям можно подключать несколько телефонов, какие могут быть проблемы?

Нельзя. И он работает только в режиме spp, что в задаче голосового управления не поможет.

lilik
Offline
Зарегистрирован: 19.10.2017

Нет, проверил ради интереса на своих смартфонах. Только так можно, мастер это смартфон.

rkit
Offline
Зарегистрирован: 23.11.2016

lilik пишет:

В рамках  сообщения ТС про Осипова и моих сообщений (без всяких гуглов) именно так и сработает. 

Голос активируется либо "ок гугл" либо кнопкой. Без этого телефон спит.  Подходить и нажимать кнопку это идиотизм и убивает весь смысл мероприятия.

lilik
Offline
Зарегистрирован: 19.10.2017

rkit пишет:

  Подходить и нажимать кнопку это идиотизм и убивает весь смысл мероприятия.

Конечно надо жать кнопку в приложении самописном. Зачем подходить?, смартфон при себе. Это же пульт как бы. На практике проще кнопки жать на нём, чем говорить в него. Хотя для одной моей конструкции, мне написали и подарили пазл для инвертора где автоматически-периодически подключается распознаватель речи.

rkit
Offline
Зарегистрирован: 23.11.2016

Может ты тему прочитаешь и что требуется? Вместо того, чтобы тратить время советами для решения задачи, которую никто не ставил?

lilik
Offline
Зарегистрирован: 19.10.2017

Голосовое управление светом... (читаем первую строку первого сообщения).

Далее в поисковик и вуаля...

 https://www.youtube.com/watch?v=qx50pdckoRM

 

lilik
Offline
Зарегистрирован: 19.10.2017

Остальное уже нюансы :-)

Nadeo
Offline
Зарегистрирован: 26.03.2021

в видосе Осипова смарт реагировал на голосовую команду "окей гэлакси", планирую сделать подобное, почему вы написали "Конечно надо жать кнопку в приложении самописном."?

схема что вы привели с устройствами master и slave как реализовывается? все через самописное приложение или иным способом? Не очень понимаю

Nadeo
Offline
Зарегистрирован: 26.03.2021

прошлый пост некорректно оформил.

Опять же вопрос к вам, есть несколько комнат (допустим это прихожая, кухня и комната), где будут располагаться смартфоны на зарядке подключенные по bluetooth к bt модулю ардуины, распознавание речи срабатывает на ближайшем смарте который услышит команду в роде "окей, домик", после чего я проговариваю "свет в комнате" - включается свет в комнате, перехожу в прихожую, ближе к другому смарту тоже подключенному по bt к ардуине, снова произношу "окей, домик", "свет в комнате" свет в комнате выключается.

такое сделать реально? пока не понимаю как объединить смарты в одну сеть, либо через bt к ардуине, либо через wifi к роутеру через ethernet shield к ардуине, посоветуйте.

rkit
Offline
Зарегистрирован: 23.11.2016

Nadeo пишет:

услышит команду в роде "окей, домик"

Команда заложена производителем телефона, и подменить ее нельзя. Ты говоришь "ок, гугл" ТОЛЬКО своим голосом, и получаешь гугл, который обрабатывает команды гугла, все без исключения.

Так работает голосовое управление в смартфонах, и перенастроить его нельзя.

Прежде, чем выдумывать всякую чушь с блютусами, элементарно достань телефон из штанов и попробуй его настроить на свой "домик".

sadman41
Offline
Зарегистрирован: 19.10.2016

С такими фантазиями лучше дворецкого завести...

lilik
Offline
Зарегистрирован: 19.10.2017

Nadeo пишет:

 

Опять же вопрос к вам, есть несколько комнат (допустим это прихожая, кухня и комната), где будут располагаться смартфоны на зарядке подключенные по bluetooth к bt модулю ардуины, распознавание речи срабатывает на ближайшем смарте который услышит команду в роде "окей, домик", после чего я проговариваю "свет в комнате" - включается свет в комнате, перехожу в прихожую, ближе к другому смарту тоже подключенному по bt к ардуине, снова произношу "окей, домик", "свет в комнате" свет в комнате выключается.

такое сделать реально? пока не понимаю как объединить смарты в одну сеть, либо через bt к ардуине, либо через wifi к роутеру через ethernet shield к ардуине, посоветуйте.

Проще сделать независимые ячейки в каждой комнате. И командуем типа "свет", "свет пауза", "ночь", "ночь пауза". Что значит : включись до новой команды, включись-подожди-выключись, выключись, выключись-подожди-включись.

negavoid2
negavoid2 аватар
Offline
Зарегистрирован: 06.05.2020

Nadeo пишет:

такое сделать реально? пока не понимаю как объединить смарты в одну сеть, либо через bt к ардуине, либо через wifi к роутеру через ethernet shield к ардуине, посоветуйте.

Реально. Лучше через wi-fi, есть ардуины со встроенным вайфаем, меньше проводов тянуть придётся.

Logik
Offline
Зарегистрирован: 05.08.2014

Nadeo пишет:

 

такое сделать реально? 

реально. Но не нужно. Знакомый такое забабахал лет 5 назад. Свет, ТВ и  кондишин подключил. Годно было понтовать перед девочками. В реале - любой посторонний шум, музыка, ТВ - напрочь сносит крышу системе. Задержка исполнения команды иногда вдруг до 15сек, онлайн-с! Приходится привыкать говорить системе правильно, как обучена, четко. Хозяина от других пошти не отличает, потому понтовать перед мальчиками уже не получалось, все начинали перебивать своими командами. Орать среди ночи "включи свет, я буду писять!" - дурная идея, домашние не поймут, и все равно до выключателя по темному красться приходится. 

Умный дом должен делать то, о чем пишешь без команд, отслеживать перемещение человека, учитывать освещенность и наличие других людей в доме. Без команд. Сам. Так что путь голосовых команд - он не туда.

Nadeo
Offline
Зарегистрирован: 26.03.2021

Как же у Осипова смарт реагировал на "ок гэлакси"?

negavoid2
negavoid2 аватар
Offline
Зарегистрирован: 06.05.2020

Можно реагировать на любую ключевую фразу, хоть на "эй, *ля, домик!" - ведь сам же её и задаёшь в программе. 

Logik пишет:

В реале - любой посторонний шум, музыка, ТВ - напрочь сносит крышу системе. Приходится привыкать говорить системе правильно, как обучена, четко. Хозяина от других пошти не отличает. Орать среди ночи "включи свет, я буду писять!" - дурная идея, домашние не поймут, и все равно до выключателя по темному красться приходится. 

Умный дом должен делать то, о чем пишешь без команд, отслеживать перемещение человека, учитывать освещенность и наличие других людей в доме. Без команд.

Послушайте логика, он прав. Годно только для развлечения на пару вечеров максимум.

ЕвгенийП
ЕвгенийП аватар
Offline
Зарегистрирован: 25.05.2015

negavoid2 пишет:

Годно только для развлечения на пару вечеров максимум.

А разве не для этого весь проект?

lilik
Offline
Зарегистрирован: 19.10.2017

negavoid2 пишет:

Годно только для развлечения на пару вечеров максимум.

Если хороший программист напишет "пазл для инвертора" где распознавание речи будет ждать в фоновом режиме, без всяких выскакивающих картинок и блямок, то можно соорудить симпотного настольного робота. Распечатать красивый оклад для смартфона, к нему сервы, моторы и вуаля : "памаши папе ручкой детка!", " скажи маама!" и т.д. 

wdrakula
wdrakula аватар
Offline
Зарегистрирован: 15.03.2016

У меня вот есть умный дом!

 - Аня! Ужин! - говорю я.

 - А что ты хочешь?

 - Отбивные.

 - Прекрасно! Мясо в холодильнике, яйцо там же. Панировочные сухари и мука в шкафу. Молоток сам найдешь? - уточняет Анна.

 - А пиво? - спрашиваю я.

 - А что пиво? Конечно буду, возьми для меня пшенички литра два! и помидоров на рынке прихвати.

Про гарнир я уже побоялся спрашивать... решил, что и без гарнира нормально.

(Анна это мой умный дом, 31 год совместного пробега ;)) )

lilik
Offline
Зарегистрирован: 19.10.2017

Это самое главное!

... Откопал я подарок-пазл свой. Набрал приложение вот такое. Работает с 1-1,5 метров уверенно. Чёрный экран - ждёт фразы, белый - пишет и вслух комментирует. Никаких блюмканий, картинок с микрофоном и т.д.

Nadeo
Offline
Зарегистрирован: 26.03.2021

Большое спасибо за подарок, будет вреия на выходных обязательно попробую, но пыл мой подостыл, потому что понимаю что это скорее всего не будет работать так как я это себе представляю, ибо такие системы клепали бы все кому не лень в силу стоимости и доступности коипонентов, а так как инфу надо искать прям чуть ли не на второй стринце поиска гугл, то результат меня скорее огорчит и система будет использоваться в целях "посмотри че сделал когда времени свободного было куча", как писали мне в самом начале, проще сделать выключатель возле кровати, тем более что в квартире идет ремонт и все можно продумать.

sadman41
Offline
Зарегистрирован: 19.10.2016

Вотименно. Представь, что живёшь ты не один, а система выключает свет где-то в комнате, где находится жена, дитё... Дофига факторов учитывать нужно в этом случае. Без интеллекта даже задачу коммутации освещения не решить.

lilik
Offline
Зарегистрирован: 19.10.2017

Nadeo пишет:
проще сделать выключатель возле кровати, тем более что в квартире идет ремонт и все можно продумать.

Да можно как обычно, возле двери и возле кровати - воспользовавшись проходными выключателями.

Logik
Offline
Зарегистрирован: 05.08.2014

Nadeo пишет:
проще сделать выключатель возле кровати, тем более что в квартире идет ремонт и все можно продумать.

Есть и варианты поинтересней. https://aliexpress.ru/item/32844335631.html?spm=a2g39.orderlist.0.0.474e4aa6PnbE3C

Сенсорный радиовыключатель. Управляется с брелка по радио. Можно интегрировать с ардуиной через https://aliexpress.ru/item/32311933574.html?spm=a2g39.orderlist.0.0.474e4aa6PnbE3C. Приемник нужен чтоб получить код, который зашит в брелке. Ну а передатчик - понятно.