Як створити стартап з розпізнавання української
© Frederic Novotny / Red Bull Content Pool

Стартап за $500: як створили бот для розпізнавання української мови

Трьом українським розробникам не вистачало технології, яка б ефективно переганяла аудіо українською мовою у текст, і вони створили її самостійно.
Автор Андрій Костюк
Опубліковано
Аудіоповідомлення у месенджерах, здається, розділили світ навпіл. Щодня виникають палкі дискусії щодо цього способу спілкування: одні вважають їх зручними та швидкими, інші дотримуються протилежної думки. До якого б з таборів ти не належав, знаєш: іноді «аудюхи» від колег прилітають, коли їх нереально ні прослухати, ні запам’ятати. У 2020 році троє українців — Тарас Лахаєв, Олексій Ієвлєв та Єгор Смоляков — замислились над цією проблемою і не знайшли ефективного рушія для розпізнавання української мови. Тож вони створили його самостійно.
Сьогодні їх технологію використовують у гаджетах для smart-будинків та роботі кол-центрів. А почалося усе з бажання трьох активних українців створити унікальний локальний контент. Як їм це вдалося — читай далі.

Авіатор, діджей і ІТ-шник

Засновники зустрілися випадково
Засновники зустрілися випадково
5 липня 2020 року у Telegram-боті (@ukr_stt_small_bot) з’явилося перше аудіоповідомлення, яке за кілька секунд перетворилося на текст українською мовою. Саме цю дату можна вважати днем народженням проєкту, над яким працювали троє хлопців — Тарас Лахаєв з Полтавщини, Олексій Ієвлєв з Мелітополя і Єгор Смоляков з Харкова.
До минулого року ніхто з хлопців не планував пов’язувати своє життя зі стартапами. «Я був програмістом, — каже 25-річний Єгор Смоляков. — Тарас у дитинстві мріяв бути авіатором, а Олексій захоплювався діджеїнгом, мріяв організовувати фестивалі електронної музики».
Несподівано, але до проєкту хлопці не були знайомі між собою. Вони знайшли одне одного у Telegram-чаті, де обговорювали бот для розпізнавання російської. Ідея створити щось подібне для українців об’єднала Єгора, Тараса та Олексія.

Не просто Telegram-бот

Тарас хотів додати українську до гаджетів у smart-будинках
Тарас хотів додати українську до гаджетів у smart-будинках
Ідея хлопців не полягала у створенні Telegram-боту. Їх цікавила технологія, що зможе розпізнавати українську мову. Робота тривала чотири місяці. Розробка отримала назву Speech Recognition for Ukrainian і стала першим безкоштовним двигуном для розпізнавання української мови.
Тарас шукав цю технологію, щоб додати українську до гаджетів у smart-будинках. Одразу скажемо, що хлопець своєї мети досяг: сьогодні ти можеш увімкнути світло, телевізор чи відкрити двері у «розумному» будинку українською.
Олексій працював у ритейлі та планував створити ефективного «таємного покупця», що буде відстежувати кожен діалог з клієнтом та допоможе створювати детальні звіти роботи персоналу зі скриптом продажів.
Третій учасник команди — Єгор — працював у телеком-компанії, що надавала послуги у сфері IP-телефонії, розпізнавання мови у дзвінках було одним із запитів клієнтів.
«Мені була цікава ця тема, тому на початку 2020 року я звільнився і створив компанію Rikkicom, яка займається розпізнаванням мови та адаптації технології для різних бізнесів», — розповідає Єгор Смоляков.
Хоча за рік до стартапу встигли доєднатись близько 15 людей, основна робота все ж була розподілена між трьома засновниками. Тарас створював датасет, Олексій допомагав у тестуванні та знаходив деталі серверу, а Олексій програмував ботів та знаходив людей, які б тестили власні моделі на основі датасету. На все хлопці витратили лише $500, вони пішли на різні компоненти серверу.
Окрім двигуна вони зібрали також 1200 годин української мови в аудіо та текстовому форматі й виклали їх як торент, щоб усі охочі могли використати цей матеріал для розвитку своїх двигунів.

Як працюють двигуни

Технологія розповсюджується на базі opensource
Технологія розповсюджується на базі opensource
Хлопці створили технологію на базі opensource — відкритого програмного забезпечення, яке за наявності ліцензії можна переглядати та змінювати. Сьогодні є три двигуни, які допоможуть у розпізнаванні мови — і команда проєкту випробувала кожен з них:
  • VOSK. Під «капотом» цього двигуна технологія Kaldi, яка підтримує багато різних мов. Хлопці написали програму для української — і почали тренувати технологію на власноруч зібраному датасеті. Зазвичай такі тренування займають від трьох до п’яти днів, залежно від бажаної якості результату і розмірів датасету.
  • DeepSpeech. Його створила компанія Mozilla — і українці так само випробували тут свій проєкт.
  • Silero STT. А ось це вже комерційна штука, і через open source сюди не дістанешся. Та компанія зацікавилася у моделі українських стартаперів — і власноруч натренувала їхню технологію.
Зараз кожен може випробувати розпізнавання мови на різних двигунах. Усе, що для цього потрібно: зайти у Telegram-чат «Розпізнавання мови» і обрати бажаний варіант: VOSK, DeepSpeech, чи Silero STT. Аби технологія розпізнала мову, повідомлення має тривати не більше хвилини. Тож журналістам, що мріють за секунди розшифровувати годинні інтерв'ю, поки рано радіти.

Монетизація і цільова аудиторія

Єгор описує цільову аудиторію проєкту досить загально — це всі, хто працює з аудіофайлами й хочуть перетворити їх в текст.
«Це можна використовувати для керування пристроями вдома, розшифровування інтерв’ю, коригування вимови чи навіть для замовлення таксі, — пояснює він. — Наприклад, моя мета — автоматизувати роботу людей, що зараз змушені прослуховувати години розмов, аби виявити неякісні або неефективні діалоги з клієнтами».
Так само у планах у команди розвивати українську спільноту, зацікавлену в розпізнаванні мови. Хлопці сподіваються допомогти у диджиталізації українського бізнесу, адже сотні українських розробників тепер можуть створювати власні проєкти на базі їхньої технології.

Комунікуй і шукай однодумців

Єгор каже, що створюючи щось нове, важливо вчитися, комунікувати і не боятися, що щось піде не так. На його думку, саме через помилки можна досягнути бажаних цілей.
Ще одна важлива порада — шукати однодумців, що зможуть допомогти в роботі. Але і самому вчитися та набиратися досвіду. Тим паче зараз для цього достатньо доступу до інтернету. Та головне: мати бажання втілити ідею в життя.