[/b/] [/d/] [/tu/] [/a/] [/34/] [/ph/] [/wa/] [/cg/] [/t/]

[Burichan] [Futaba] [Gurochan] [Photon] - [Home] [Manage] [Archive]

[Return]
Posting mode: Reply
Leave these fields empty (spam trap):
Name
Link
Subject
Comment
File
Verification
Password (for post and file deletion)
  • Supported file types are: GIF, JPG, PNG
  • Maximum file size allowed is 10240 KB.
  • Images greater than 200x200 pixels will be thumbnailed.

File: 1291858015275.jpg -(103384 B, 401x600) Thumbnail displayed, click image for full size.
103384 No.45709  

http://rghost.net/3536859

вот что можно с таким синтезатором сделать в консоли, чтобы было что-то более синтетическое, в стиле гладос? куда вообще можно применить синтезатор голоса?
синтезированно при помощи festival 1.96 и голосов hts nitech

>> No.45730  
>что-то более синтетическое

Любой голос получает "металлический" оттенок, от которого мурашки по коже, если прикрутить ему эхо с замедлением в районе сотых-тысячных долей секунды. В Audacity такое есть.

>в консоли

Не понял.

>> No.45736  

>>45709
lame -h rawen_synth.wav в следующий раз.
У SoX есть возможность работать в консоли, но он вроде не работает в реалтайме.

>куда вообще можно применить синтезатор голоса?

AIML, например. Можно использовать для озвучки сообщений чата. Если найдёшь как к этой штуке привязать рекогнайзер (а так же если найдёшь годный рекогнайзер) обязательно отпишись. Говорить с компьютером голосом определённо интересно.

>> No.45737  
File: 1291886697962.jpg -(756117 B, 1266x1470) Thumbnail displayed, click image for full size.
756117

>>45730
http://www.linux-sound.org/one-page.html#fx
Посмотри какие из них могут работать в консоли. Для гладос попробуй добавить в обработку Ring или, как сказал >>45730-кун, несколько эхо с небольшой задержкой.

>> No.45738  

>>45736

> но он вроде не работает в реалтайме

Почемуже? Очень даже работает, если выходной поток сразу в звуковуху направить например.

>> No.45740  

>>45738
А ему пазве не придется как-то сохранить результат синта прежде чем отправлять его в SoX?

>> No.45746  

>>45740
stdin/stdout же

>> No.45757  
File: 1291891468399.jpg -(202499 B, 800x600) Thumbnail displayed, click image for full size.
202499

>>45737
sox. я о том, что делать со звуком. голос гладос вроде получается подавлением pitch modulation, понятия не имею, что это значит.

>> No.45796  
File: 1291906158893.jpg -(44513 B, 266x400) Thumbnail displayed, click image for full size.
44513

Одобряю этот тред. Сам недавно думал над возможностью голосовым управлением ПК.

Пришел к выводу, что при наличии надлежащего софта, можно было бы организовать дома следующую систему за относительно небольшие деньги:
пачка микрофонов по квартире подключена к какому-нибудь nettop'у (чтобы тихо было и мало электричества кушало), на котором круглосуточно вертится система с распознаванием голоса (и синтезатором для ответов), подключены разнообразные устройства типа включателей/выключателей света. Есть сетевая связь с основным компом (мне неттопа маловато), который, соответственно, принимает сигналы от нашего управляющего неттопа для включения, выключения, переключения трека, какой-то навигации и т.п. (можно еще прикрутить какой-то форвардинг голосовых команд прямо на основную систему, чтобы была возможность воздействовать напрямую).

По деньгам помимо обычного компа необходимо приобрести неттоп (или взять старый ноут), микрофоны. Возможно, прийдется поработать паяльником для всякого рода переключатетелей, где цифровой мир соединяется с реальным.

По поводу софта: есть относительно прямые руки, чтобы закодить/заскриптовать необходимое поведение. Однако, хочется узнать, какие есть открытые системы распознавания голоса и насколько они в работоспособном состоянии.

Твои мысли, анон. Какие могут быть подводные камни и куда копать?

>> No.45799  

>>45796
Раз уж ты всё равно собрался брать старый ноут, подумай о варианте старенького макбука g3 или g4, у них неплохое апи для распознавания и синтеза речи и неплохая система скриптов. Баловства ради пробовал управление голосом, но быстро наигрался - всё время говорить заёбывает. Годные открытые системы распознавания речи сам ищу, но пока не встречал.

>> No.45833  

>>45796

>Какие могут быть подводные камни и куда копать?

погуглить бы надо.

>> No.46086  

>>45796

>открытые системы распознавания голоса

Может, лучше начать с распознавания частот, отдельных звуков? С распознаванием голоса проблем много. Для начала можно сделать управление по хлопку или свистку.

>> No.51577  

>>45796
Было бы здорово если бы кое-кто не компьютерным зрением занимался, а распознаванием голоса для начала. Самое сложное в этой задаче - написать правильный паттерн, чтобы его можно было масштабировать по длительности и высоте. Базу составлять например так: по несколько тысяч раз произнести каждый из возможных слогов, паттерн слога брать как общий от одного и того же минус все совпадения с остальными слогами.
По результату каждой голосовой комманды составлять регексп, чтобы при нечёткой речи в случае нескольких слогов они оба записывались. Далее просто сравнение результата с базой команд.
Я бы с удовольствием занялся этим, но у меня почти нет свободного времени.

>> No.56045  

>>51577
Есть ли перспективы использования нейросетей для распознавания голоса? Капчу же они понимают, хоть и с трудом. Тут по сути та же задача, только вместо картинок с буквами аудиотреки со звуками.

>> No.56070  

>>56045
А не выйдет ли это как из пушки по воробьям? Это заведомо более ресурсоёмкий путь.

>> No.56128  
File: 1301196755744.jpg -(44186 B, 300x532) Thumbnail displayed, click image for full size.
44186

>>56045
загугли, хулъ.
>>56070
нихуя нейросети не ресурсоёмки, они наоборот для быстрого приближенного решения задач.



Delete Post []
Password

[/b/] [/d/] [/tu/] [/a/] [/34/] [/ph/] [/wa/] [/cg/] [/t/]