O'zbek Nutq Korpusi va Avtomatik Nutqni Tanish


O'zbek tilidagi nutqni avtomatik tanish tizimini yaratish uchun mo'ljallangan nutq korpusining ochiq ma'lumotlar bazasi va dastlabki avtomatik nutqni tanish tizimi.

Boshlash

  Tashrif buyurganlar
1643

  Umumiy audiolar soni
107341

  Umumiy audiolar davomiyligi
118.2 soat (01.07.2021)

Audio yig'ish jarayoni

Assalumu alaykum. Siz o'zbek tili nuqtini avtomatik tanish tizmi uchun nutq korpusini shakllantirishga mo'ljallangan web sahifaga tashrif buyurdingiz. Bizga ko'maklashmoqchilingizdan minnaddormiz. Siznig yordamingiz biz uchun juda muhim.


* Tizimdan foydalanish uchun birinchi navbatda so'rovnomani to'ldirishingiz kerak bo'ladi (ilk tashrif bo'lsa).
* Sizga taqdim qilingan matnni mikrofon tugmasini bir marta bosib, matnni ifodali o'qishingiz va so'ngida mikrafon tugmasini qayta bosishingiz so'raladi.
* Hosil qilingan audio faylni eshitib ko'rib, agar to'g'ri bo'lsa, " Jo'natish " tugmasini bosing.
* Agar xatolik bilan o'qilgan bo'lsa, audioni qaytadan yozishingiz mumkin.
* Sizga taqdim qilingan matni o'zgartirish uchun " Matnni generatsiyalash " tugmasini bosing!



So'rovnoma



  
  
       






Audio yig'ish jarayoni (telegram bot orqali)


Tizimdan foydalanishni ko'p foydalanuvchili qilish maqsadida telegram ijtimoiy tarmog'ida maxsus UzSpeechDB_bot nomli bot yaratilgan. Siz ko'rsatilgan havolani bosish orqali telegram bot sahifasiga o'tishingiz mumkin!

Ushbu loyiha Muhammad al-Xorazmiy nomidagi Toshkent axborot texnologiylari universiteti Kompyuter tizimlari kafedrasi "Tasvirlar va nutq signallariga ishlov berish" laboratoriyasi hamda Institute of Smart Systems and Artificial Intelligence(ISSAI) hamkorligida loyihalangan va Creative Commons Attribution 4.0 xalqaro litsenziyasi asosida himoyalangan. Loyiha doirasida amalga oshirilgan ishlar quyidagi ilmiy maqolada o'z aksini topgan:


Musaev, M., Mussakhojayeva, S., Khujayorov, I., Khassanov, Y., Ochilov, M., & Varol, H. A. (2020). USC: An Open-Source Uzbek Speech Corpus and Initial Speech Recognition Experiments. arXiv preprint arXiv:2107.14419.

O'zbek tilidagi nutqni tanishga mo'ljallangan tizimni ishlab chiqish texnologiyasi https://github.com/Smart-Projects-Artificial-Intelligence/Uzbek-ASR havolada taqdim qilingan.


Nutqni avtomatik tanish


Quyida o'zbek nutq korpusi yordamida qurilgan nutqni avtomatik tanish tizimining demo versiyasi keltirilgan. Iltimos mikrafon tugmasini bosing va hisoblagich nolga yetguncha darhol gapiring. Aniqlangan(tanilgan) matn 10 soniyadan so'ng mikrafon tugmasi ustida ko'rsatiladi. E'tibor bering ba'zi brauzerlar ovoz yozish xususiyatlarini qo'llab-quvvatlamaydi!!!


* Dastlab model tanlanadi. (WER-Word Error Rate va CER-Character Error Rate ko'rsatgichlariga qarang !)
* Tanlangan modelga mos til modeli (LM-Language model) tanlanadi.
* Mikrafon tugmasi bosilib, hisoblagich nolga yetguncha darhol gapiriladi.
* Vaqt tugagach natija 10 sekunddan so'ng mikrofon tugmasi ustida ko'rinadi.
* Yangi testlashni amalga oshirish uchun mikrofon tugmasi qayta bosiladi.




Testlash jarayoni


      


      






      






Statistika

Yig'ilgan ma'lumotlar statistikalari (01.07.2021)


Toifa O'qitish uchun Tarmoq parametrlarini sozlash uchun Testlash uchun Umumiy
Davomiylik (soat) 100.2 10.8 7.2 118.2
Jumlalar 90.012 7.321 5.211 104.544
So'zlar 451.1k 31.3k 30.2k 512.6k
Takrorlanmas so'zlar 50.2k 11.2k 13.1k 74.5k
Diktorlar 882 83 67 1032
O'zbek nutq korpusi xususiyatlari




Davomiylik (sekund)
(a)
Uzunlik (so'zlar)
(b)

(a) Korpusni tashkil etuvchi audiolar davomiyligi taqsimoti, (b) Korpusni tashkil etuvchi matnlardagi so'zlar soni taqsimoti.








Korpusni shakllantirishda ishtirok etgan diktorlar yosh va jinsi bo'yicha statistikasi.

Biz bilan bog'lanish


Biz bilan hamkorlikni istaganlar va to'plangan ma'lumotlar bazasidan foydalanishni xohlaganlar biz bilan bog'lanishingiz mumkin.



O'zbek Nutq Korpusi va Avtomatik nutqni tanish

O'zbek tilidagi nutqni avtomatik tanish tizimini yaratish uchun mo'ljallangan nutq korpusining ochiq ma'lumotlar bazasi va dastlabki avtomatik nutqni tanish tizimi.

TATU , "Sun'iy intellekt" kafedrasi, "Tasvirlar va nutq signallariga ishlov berish" laboratoriyasi.

ravotcha1992@gmail.com

+998 94 651 64 51

Kuting
Sizning xabar yuborildi! Rahmat