Статьи

Синтез мови і читання електронних книг голосом

  1. Методи синтезу мови
  2. голосові движки
  3. Програма для читання книг
  4. MP3book2005
  5. Підготовка до встановлення
  6. Установка і запуск
  7. недоліки:
  8. Програма синтезу російської мови Говорилка 2.0.6 і голосові движки Digalo і SpeechCube
  9. Текст на мову
  10. Speech API
  11. голосові движки
  12. Програми екранного доступу
  13. Історія

Автоматичний синтез мови - процес генерації мовного сигналу - технологія, яка дає можливість прочитати текст (документ, лист, смс) голосом, наближеному до природного. Для того, щоб синтезоване мовлення звучала натурально, необхідно вирішити цілий комплекс завдань, пов'язаних як із забезпеченням природності голосу на рівні тембру, плавності звучання і інтонації, так і з правильною розстановкою наголосів, розшифровкою скорочень, чисел, абревіатур і спеціальних знаків.

Технологія синтезу може бути затребувана як у вузькій предметній області, так і в широкій, або необмеженою. Для вузької області якість звучання може бути зведене до максимально природною, за рахунок компіляції заздалегідь записаних тривалих мовних фрагментів, що відносяться до даної області. Прикладом такого синтезу (званого макросінтезом) можуть служити системи оповіщення про рух поїздів, застосовуються на вокзалах великих міст в Росії. Набагато складніше зробити синтезатор мови для необмеженого тексту будь-якої предметної області. У такому випадку користувач може задати системі синтезу на вимова будь-яку фразу або пропозицію.

Методи синтезу мови

Сьогодні існує три основних напрямки синтезу: діфонний підхід (діфон - це звук від середини однієї фонеми до середини сусідній фонеми), аллофон підхід (реалізація фонеми в оточенні контексту зліва і справа) і технологія Unit Selection (вибір звукових елементів з мовної бази). Але кожен з них окремо має свої недоліки:

  • Діфонний підхід - дозволяє робити розбірливий, але неприродний за тембром мовний сигнал. У тембрі синтезованої мови не впізнається тембр диктора-донора.
  • Аллофон підхід - природність голосу трохи вище, ніж в діфонном підході за рахунок більшого набору звукових елементів. Однак, як і в діфонном синтезі голос виходить досить роботизованим, і в ньому важко впізнати голос диктора-донора.
  • Unit Selection - природність тембру мови висока і в синтезований голос зберігає темброве забарвлення голосу диктора-донора. Однак через обмеження на розмір голосової бази деякі тексти (слова і їх поєднання) вимовляються з помітними перекручуваннями аж до повного випадання окремих звуків.

Сайт розробника: www.elantts.com .

голосові движки

На даний момент, для синтезу мови найкраще підходить голосові движки:

  • Acapela ALYONA Multimedia (Acapela Multimedia Alyona)
  • Acapela ELAN NIKOLAI Tempo Multimedia (Acapela ELAN Tempo Multimedia) V5.1.0.0 Russian (255 channels)

Доп. інформація: Text-to-speech (TTS) engine або движки синтезу мови - програми схожі на драйвера, призначені для перетворення і синтезу тексту в звукову хвилю. Двигуни синтезу мови не мають вбудованого управління і для того, щоб Ваш комп'ютер заговорив, мало одного TTS. Для використання TTS необхідна програма синтезу (TextAloud, Cool Reader, Balabolka і т.д), яка замінює інтерфейс, дозволяючи працювати з TTS, змінювати його налаштування, звучання і тембр мови, і управляти іншими можливостями.

Компанія Acapela розробники популярного російськомовного голосового модуля Микола, випустили новий росіянин, жіночий голосовий движок, який отримав назву Олена, працює на SAPI-5 з частотою 22 КГц, за якістю синтезується Олена набагато випереджає Миколи, тембр голосу і інтонація на думку користувачів приємніше ніж у движка Катерина від ScanSoft RealSpeak.

Разом з движком поставляється Lexicon Manager - редактор словників, який дозволяє змінювати вимова слів як буквено, так і фонетично.

Наприклад за допомогою KooBAudio, mp3book2005 і цього голосового движка - 4 годинний роман можна озвучити і перевести в mp3 за 10 хвилин

Acapela Alyona - добре працює з такими програмами як: KooBAudio 0.7.0.7, mp3book2005, Талалайка, Cool Reader ...

Хороший голосовий движок! В цілому дійсно читає чіткіше всіх інших російськомовних, включаючи Миколи, однак у останнього більш приємний голос в слідстві низького тембру голосу і він менше робить помилки у наголоси.

Програма для читання книг

ToM Reader 2.73

Завантажити ToM Reader 2 Завантажити ToM Reader 2.73 (1 Mb) Virus Free by KAV

Безкоштовна, звичний вид книги, наочні закладки, можливість запису в mp3.

ToM Reader Russian програма для читання. Головне достоїнство в тому, що не втручається в вимова голосового движка, і читає за пропозиціями, а не по абзацах як у багатьох програмах, тому легко відстежувати читання. Виглядає як книга в палітурці, що теж зручно. Підтримувані формати: txt, doc, rtf, htm.

MP3book2005

Завантажити MP3book2005 (7 Mb)   Virus Free by KAV Завантажити MP3book2005 (7 Mb) Virus Free by KAV

З усіма необхідними функціями для редагування словника, записи в MP3 і читання.

MP3book2005 програма для редагування словника, читання, і записи в mp3. Редагує словник прекрасно, але хотілося б, що б вид був книжковий. Підтримувані формати: txt, rtf, htm, fb2.

Підготовка до встановлення

1. Завантажуємо движок синтезу мови:

2. Завантажуємо Infovox Desktop 2.220 Engine SP3 ( Acapela_Infovox_Desktop_2.220_EngineSP3.rar ) (24.08 Mb) - програма врядування та активації, з рідною, простий читалкою, і найголовніше з програмою редагування Алёніного словника вимови - Lexicon Manager.

3. Завантажуємо US English 2.220 ( English_ID2220.rar ) (233.13 Mb) - движок синтезу англійської мови.

4. Завантажуємо читалки, програму для читання книг ( посилання вище ).

5. Завантажуємо AlyonaSlovari-Alyona22k ( AlyonaSlovari.rar ) (1.2 Mb) - словники до Олени на 24345 слів.

7. Скачиваем MSagent.exe і ms_speech_api.exe ( sintez_bib.rar ) (Архів-1,09 МБ) - MSagent.exe (400 KB) - агент для роботи з двигунами розпізнавання і синтезу мови, ms_speech_api.exe (830 KB) - бібліотеки необхідні для роботи програм розпізнавання і синтезу мови (для Windows 7 не потрібні).

Підтримує OS: Windows XP, Windows Vista, Windows 7, 8.

Всі номери зазначені нижче на сторінці!

Установка і запуск

  • 1) Встановіть головний керуючий елемент Infovox Desktop 2.220 Engine
  • 2) Поверх встановіть голосовий движок Alyona Russian 2.220
  • 3) Запусти License Manager і скопируй кнопкою "Copy to Clipboard" License Code
  • 4) Запусти key.exe, встав туди код і натисни "Make Key", щоб згенерувати ліцензійний файл.
  • 5) імпортує отриманий файл в License Manager натиснувши "Import License File"
  • 6) Додаємо словники за допомогою Lexicon Manager (Lexicon-Voice Associations - Add Lexicon ... або File - Import Lexicon)

Для роботи потрібні додаткові бібліотеки (встановлювати в цьому порядку!):

  • 1. MSagent.exe і ms_speech_api.exe - бібліотеки необхідні для роботи програм розпізнавання і синтезу мови. (Для Win 7 не потрібні)
  • 2. Acapela ELAN Tempo Multimedia V5.1.0.0 Nicolai - движок синтезу російської мови для агента.
  • 3. ToM Reader 2.73 або MP3book2005 - програми для читання, яка сподобається.
  • 4. Завантажуємо словник наголосів для ELAN Tempo Multimedia Nikolai.

Копіюємо основний словник exc_rus.txt, і abb_rus.txt - для абревіатур, в паку C: \ Program Files \ Elan, а exc_rus.txt ще й в Program Files \ MP3book2005 \ DIC, з заміною.

MP3book2005 редагує тільки exc_rus.txt, abb_rus.txt потрібно правити в Блокноті або Word. Це фірмові словники, ними користується ELAN Tempo Multimedia.

Є ще словник, який вбудовується в читає програму ToM Reader (Digalo Russian Nicolai.dic). Ні в якому разі не користуйтеся такими словниками, вони тільки погіршують вимова.

У ToM Reader настройки движка приблизно такі:

Щоб редагувати словник в MP3book2005 натискаємо кнопку Словник, і якщо потрібно, завантажуємо словник exc_rus.txt. Щоб додати в словник нове слово натискаємо кнопку в верху Вимова, пишемо слово в нижньому рядку, якщо воно виділено в тексті, то воно там вже буде, натискаємо кнопку Перевірити, ставимо курсор на правильне місце наголоси, натискаємо (

Можна тримати ToM Reader і MP3book2005 одночасно відкритими. Читаєте в ToM Reader, редагуєте в MP3book2005, при цьому після зміни словника ToM Reader треба перезавантажити. Можна використовувати тільки MP3book2005. При цьому треба враховувати, що ToM Reader є безкоштовним, а не зареєстрований MP3book2005 має незначні обмеження.

недоліки:

Acapela ELAN Tempo Multimedia іноді читає слова написані ВЕЛИКИМИ буквами, по буквах.

Digalo Микола - старий варіант.

Можна взяти Digalo TTS 2000 (DigaloCoreRus.exe-7,44 МБ, SAPI 4) і ToM Reader Russian. Digalo TTS 2000 це голосовий движок, який підтримує кілька мов, в тому числі російську. Він платний, але можна знайти crack. ToM Reader Russian це програма, яка використовує Digalo TTS 2000 на читання книг.

Digalo TTS 2000 має російський голос Nicolai, він краще голосів від інших фірм, але не ідеальний, тому для нього потрібен словник. Є два варіанти: використовувати словник вбудовується в ToM Reader, і використовувати словник в самому Digalo. Перший простіше, тому що використовує зірочки (*) замінюють частину слова, але менш якісний, другий складніше, але і якісніше.

У першому випадку беремо словник Digalo Russian Nicolai.dic і копіюємо в папку dict в ToM Reader, яка з'являється при відкритті ToM Reader і в настройках ставите: використовувати словник. У другому випадку процес трохи довше. Але перевага його в тому, що ви отримаєте більш якісне вимова, і інші програми, такі як ПРОМТ, що не мають можливості підключення словника, матимуть правильну вимову, тому що Digalo буде використовувати свій словник.

Отже, беремо DigaloEditor 1.0 і розпаковуємо в c: \ Program Files \ Digalo \ Digalo 2000 Russian \ russian \ data. Там з'являються: DigaloEditor.exe - програма для редагування словника, abb_rus.txt і exc_rus.txt - словники. abb_rus.txt для абревіатур, exc_rus.txt для інших слів. DigaloEditor.exe редагує тільки exc_rus.txt, abb_rus.txt потрібно правити в Блокноті або Word.

Тепер про особливості редагування в DigaloEditor.

Якщо ви хочете додати слово або знайти, натискаєте кнопку Додати, і починаєте вводити, при цьому автоматично відбувається пошук, і якщо така комбінація є вона світиться червоним. І найголовніше. При наборі слова воно вже записується в словник, і якщо вийти з нього зберігши результат, воно буде в словнику. В незалежності є таке слово в словнику чи ні. Тому якщо ви написали правильне слово, натискаєте кнопку зберегти. Якщо не правильно або таке слово вже є, то введену рядок видаляєте кнопкою Видалити. І так зберігаєте-видаляєте після кожного набору. Наголос ставиться знаком «

Результат чути після перезавантаження читаючої програми.


Програма синтезу російської мови Говорилка 2.0.6 і голосові движки Digalo і SpeechCube

  • Рік випуску: 2006
  • Версія: 2.0.6.0
  • Розробник: Рязанов Антон
  • Платформа: Windows 9x / nt / 2000 / xp
  • Системні вимоги: мінімум P200 + звукова карта
  • Мова інтерфейсу: англійська + російська
  • Таблетка: Не потрібно

Govorilka - це невелика програма для читання текстів голосом. Вона може прочитати вголос будь-який текст, який Ви їй дасте на будь-якій мові, будь-яким встановленим голосом. Запише текст в MP3 файл.

Основні можливості програми Govorilka.

  • Читання тексту голосом.
  • Запис читаного тексту в звуковий файл (* .WAV, * .MP3) з підвищеною швидкістю * і з розбивкою на частини заданого розміру.
  • Регулювання швидкості читання і висоти голосу.
  • Автоматично прокручує текст на екрані, щоб завжди був видний читаний фрагмент (стеження за мовою). При цьому читається текст може підсвічувати кольором.
  • Поповнення словників вимови, які дозволяє легко коректувати вимову окремих слів і словосполучень.
  • Відкриває великі файли в DOS і Windows кодуванні.
  • Відкриває тексти з файлів Microsoft® Word і HTML.
  • Розмір тексту, що читається до 2 гігабайт.
  • Запам'ятовується текст і позиція курсора при виході з програми.

Зверніть увагу на те, що поточна версія програми є тестовою (бета) - можуть бути незначні помилки.

Чим корисна Govorilka: Govorilka береже Ваш зір. З нею тексти електронних книг можна слухати, а не читати з екрану монітора. Можна дізнатися як звучать слова і фрази на іноземній мові. Можна швидко записати книги в MP3 файли і слухати їх на MP3 плеєрі. За допомогою Говорилка Ви можете оцінити можливості комп'ютерного синтезу мови і навчити свій комп'ютер розмовляти.

Опис: Говорилка потрібна тому, хто більше любить слухати тексти, ніж читати їх з екрану монітора або береже свій зір і хоче читати тексти електронних книг сидячи подалі від монітора, хто хоче дізнатися як звучать слова і фрази на іноземній мові. Говорилка потрібна всім, хто хоче навчити свій комп'ютер говорити і кому просто цікаво дізнатися, як це все працює.

Додаткові можливості: зміна швидкості читання і висоти голосу; відкриття великих файлів в DOS і Windows кодуванні, а також читання тексту з файлів MS Word; запіcь мови в звуковий файл (wav або mp3); автоматична прокрутка тексту на екрані, щоб завжди був видний читаний фрагмент; читання тексту, що знаходиться в буфері обміну, можливість змінювати вимова (словник).

Доп. інформація: Інтерфейс у Govorilka - багатомовний, в Windows 2000 / XP програма запрацює одразу, а ось користувачам Windows 95/98 / NT, можливо, доведеться завантажити деякі відсутні файли - text-to-speech engine і SAPI (подробиці - на домашній сторінці) .

Текст на мову

Читалка - програма призначені для зручного читання текстів і електронних книг з екрану комп'ютера. Крім цього багато читалок вміють озвучувати тексти, використовуючи для цього спеціальні програми мовного синтезу.

Хороша читалка володіє безліччю функцій роблять читання з екрану менш виснажливим. Розкладка у вигляді книги, плавний скролінг тексту, згладжування тексту - тільки деякі з інструментів застосовуються в читалках.

  • ** ICE Book Reader ** - потужна, безкоштовна програма для читання текстів голосом (читалка).
  • ** Cool Reader ** - програма для комфортного читання книг з екрана, форматування та конвертування.
  • ** UkrVox ** - український голос для Speech API та проста програма для перетворення текстів в голос.
  • ** Rozmovlyalka ** - безкоштовний синтезатор для голосового озвучування україномовних текстів.
  • ** TOM Reader Russian ** - програма для комфортного читання електронних текстів і книг на комп'ютері.
  • ** Balabolka ** - безкоштовна програма для читання текстових файлів людським голосом.
  • ** Govorilka ** - невелика безкоштовна програма для читання текстів за допомогою двигунів голосового синтезу.

Для того, щоб програми, що входять в категорію «Читалки» могли озвучувати тексти «людським голосом» в системі повинна бути встановлена бібліотека SAPI (Speech Application Programming Interface, або Speech API) і голосові движки.

Speech API

На сьогодні поширені дві версії Speech API: SAPI4 і SAPI5. Обидві ці бібліотеки несумісні, але один одному не заважають і можуть працювати на одному комп'ютері, тому для програм підтримують обидві бібліотеки рекомендується їх обидві і встановити (це дозволить мати більшу кількість голосових движків).

В операційних системах Windows XP, Vista і 7 зазвичай вже є встановлені бібліотеки SAPI5, тому потрібно (але не обов'язково) тільки встановити SAPI4. Однак, можливі й такі випадки, коли виникає потреба у встановленні SAPI5. Завантажити та ознайомитися з особливостями установки кожної з цих бібліотек можна на їхніх сторінках: завантажити SAPI .

голосові движки

Також, для синтезу мови, на комп'ютері необхідно мати встановлені голосові движки для бажаної мови. Вище вже було зазначено, що бібліотеки SAPI4 і SAPI5 несумісні, тому кожен з голосових движків може працювати тільки з однією з цих бібліотек. Якщо на вашому комп'ютері встановлена ​​обидві бібліотеки Speech API, то можна встановити всі голосові движки: Завантажити голосові движки для SAPI .

Програми екранного доступу

Програма екранного доступу VIRGO 4 - це підсумок багаторічної роботи фірми BAUM з розвитку програми VIRGO, головна мета якої полягає в забезпеченні комфортної роботи сліпих і слабозорих користувачів з Windows. VIRGO 4 дозволяє користувачеві вибирати, яку інформацію показувати на брайлівські дисплеї, а яку вимовляти голосом. Слабозорі користувачі можуть також скористатися інтегрованою в VIRGO 4 системою збільшення екрану ГАЛІЛЕО. Комплексний підхід VIRGO 4, який використовує Брайля та мова, гнучко поєднує силу обох методів виведення інформації для зручності користувача.

MyStick є першим мобільним екранним доступом, який працює без інсталяції на всіх сучасних комп'ютерах з Windows. Вставлений у вільний USB-порт комп'ютера, MyStick запускається автоматично і користувач відразу може працювати з компьютером.После видалення MyStick на комп'ютері не залишається ніяких файлів і не змінюється ніяка конфігурація. MyStick - це флешка формату U3. За допомогою MyStick сліпі і слабозорі користувачі ПК не прив'язані до певного, спеціально обладнаному комп'ютера і можуть отримати доступ до будь-якого комп'ютера, що працює з Windows. Існують два варіанти MyStick: з мовним виведенням і збільшенням екрану і тільки з мовним виведенням. Поставляються версії MyStick для російської, англійської, німецької, французької, шведської, норвезької та датської мов.

Програма екранного доступу Кобра 9.1 спрощує роботу з Windows 7, Vista або Windows XP для сліпих і слабозорих користувачів комп'ютера. КОБРА об'єднує всі стандартні функції сучасної програми екранного доступу, орієнтованої на користувача. КОБРА фіксує вимоги користувача і виводить важливу інформацію з комп'ютерного монітора за допомогою мови, Брайля або збільшення екрану.

Історія

У синтезу мови довга історія, обросла легендами. Ще в Х столітті Герберту Аврілакского приписували володіння мистецтвом виготовлення терафима - говорить мертвої голови. Зроблена з бронзи, ця голова словами «так» і «ні» відповідала на питання будь-якого до неї звертався. В середині XIII століття монах-домініканець Альберт фон Больштедт і англійський філософ і натураліст Роджер Бекон також намагалися створювати перші зразки «балакучих голів».

В кінці XVIII століття датський вчений Християн Кратценштейн, дійсний член Російської Академії Наук, створив модель мовного тракту людини, здатну вимовляти п'ять довгих голосних звуків (а, е, і, о, у). Модель представляла собою систему акустичних резонаторів різної форми, які видавали голосні звуки за допомогою вібруючих язичків, порушуваних повітряним потоком. У 1778 австрійський учений Вольфганг фон Кампельо доповнив модель Кратценштейна моделями мови і губ і представив акустично-механічну говорить машину, здатну відтворювати певні звуки і їх комбінації. Шиплячі і свистячі видувалися за допомогою спеціального хутра з ручним керуванням. У 1837 учений Чарльз Уітстоун (Charles Wheatstone) представив покращений варіант машини, здатний відтворювати голосні і більшість приголосних звуків. А в 1846 році Джезеф Фабер (Joseph Faber) продемонстрував свій говорить орган Euphonia, в якому була реалізована спроба синтезування не тільки мови, а й співу.

В кінці XIX століття знаменитий учений Олександр Белл створив власну «говорить» механічну модель, дуже схожу за конструкцією з машиною Уітстоуна. З настанням XX століття почалася ера електричних машин, і вчені отримали можливість використовувати генератори звукових хвиль і на їх базі будувати алгоритмічні моделі.

У 1930-х роках працівник Bell Labs Хомер Дадлі (Homer Dudley), працюючи над проблемою пошуку шляхів для зниження пропускної здатності необхідної в телефонії, щоб збільшити її передавальну здатність, розробляє VOCODER (скорочено від англ. Voice - голос, англ. Coder - кодіровщік ) - керований за допомогою клавіатури електронний аналізатор і синтезатор мови. Ідея Дадлі полягала в тому, щоб проаналізувати голосовий сигнал, розібрати його на частини і пересінтезіровать в менш вимогливий до пропускної спроможності лінії. Вдосконалений варіант вокодера Дадлі, VODER, був представлений на Нью-Йоркській Всесвітній виставці 1939 року.

Перші синтезатори мови звучали досить неприродно, і часто ледве можна було розібрати вироблені ними фрази. Однак якість синтезованої мови постійно поліпшувалося, і мова, що генерується сучасними системами синтезу мови, часом не відрізнити від реальної людської мови. Але незважаючи на успіхи електронних синтезаторів мови, дослідження в області створення механічних синтезаторів мови як і раніше ведуться, наприклад, для використання в роботах-гуманоїда.

Перші системи синтезу мови на базі обчислювальної техніки стали з'являтися в кінці 1950-х років, а перший синтезатор «текст-в-мова» був створений в 1968 році.

Новости