?

Log in

No account? Create an account

Речераспознавательное - Общество дровосеков Бердичева по изучению Мишны

Aug. 1st, 2012

10:15 am - Речераспознавательное

Previous Entry Share Next Entry

Русская речь спортивного комментатора, ускоренная вдвое, требует сознательного внимания - как только я пытаюсь делать что-то еще, например, читать ЖЖ, она перестает восприниматься полностью. А в полтора - вполне нормально.

Comments:

[User Picture]
From:fregimus
Date:August 1st, 2012 06:11 pm (UTC)
(Link)
То же самое заметил. Хотя фонетическая информация практически не теряется на двойной скорости с обычными алгоритмами «ускорения» (time compress).
(Reply) (Thread)
[User Picture]
From:spamsink
Date:August 1st, 2012 09:36 pm (UTC)
(Link)
Выходит, при работе распознавателя в фоновом режиме коэффициент надежности был ниже двух. Ну хоть за полтора эволюции спасибо.

Насколько я понимаю, аудио сжимается фреймами (у MPEG3 - 75 fps), и при ускорении не более чем вдвое два фрейма подряд никогда не выбрасываются, а фонетических явлений длительностью в 1/75 секундя или меньше я не представляю себе.

Кстати о persistence of hearing и темпоральной разрешающей способности слуха. Рекорд скорости приема морзянки на слух - 72.5 WPM (с 1939 года не побит). Средняя длительность слова считается равна 50 длительностям точек; плюс длительность паузы между словами, равная 3 тире = 9 точкам, как раз и получается практически точно 75 бод.
(Reply) (Parent) (Thread)
[User Picture]
From:fatoff
Date:August 4th, 2012 12:17 am (UTC)
(Link)
А с распознованием английской речи та же динамика? Или лучше, как можно было ускорить воспроизведение аж втрое?
(Reply) (Thread)
[User Picture]
From:spamsink
Date:August 4th, 2012 12:31 am (UTC)
(Link)
Примерно та же, чуть хуже. Втрое - нет, на любом языке совершенно неразборчиво.
(Reply) (Parent) (Thread)
[User Picture]
From:fatoff
Date:August 4th, 2012 01:52 am (UTC)
(Link)
Мне кажется, несиллабический (бесслоговый) язык, как китайский, воспринимать на скорости x2 будет совершенно не возможно. Ритм слогов (к изменению которого мозг приучается, говорят быстрее-медленнее) нафиг отсутствует, а разница в частотах звуков (ну о чём тут говорить, когда будет сплошной overlap с разницами на более медленной речи) деформируется.

Edited at 2012-08-04 01:53 am (UTC)
(Reply) (Parent) (Thread)
[User Picture]
From:spamsink
Date:August 4th, 2012 02:23 am (UTC)
(Link)
Сейчас же не "магнитофонное" ускорение, а методом тайм-слайсинга. Все частоты сохраняются.
(Reply) (Parent) (Thread)