O‘zbekcha “Alisa” qanday ishlab chiqildi? - loyiha asoschilari bilan suhbat

Fan-texnika 12:46 / 12.03.2023 135543

Dastlab “Mohir AI” loyihasi asoschisi Anvar Narzullayev mazkur sun’iy intellekt avvaliga “Aziza” deb nomlangani, keyinroq esa bu nom o‘zgartirilganiga to‘xtaldi.

“Alisher Sa’dullayev (Yoshlar ishlari agentligi direktori) nomini «Aziza» bo‘lsin deb taklif bergandi. Buning ustida ham o‘rganish qildik. Masalan, «Apple»niki «Siri», Rossiyaniki «Alisa». “Nima uchun bunday ism tanlashgan” – deb e’tibor bersak, eng kam ishlatiladigan ism tanlash kerak ekan. Chunki ko‘p qo‘llanadigan ism bo‘lsa, sun’iy intellekt yoqilib ketaveradi. Agar biz sun’iy intellektimizga “Aziza” deb ism qo‘ysak, u ishlab ketaverardi. Shuning uchun «Mohir» va «Mohira» deb tanladik. Hozirda ikkalasi uchun alohida qilib 100 soatdan ovoz yozilyapti.

Birinchi navbatda sun’iy intellektni mahalliylashtirishni maqsad qilganmiz. Chunki bu narsa sotib olinadigan tayyor mahsulot emas, uni tilimizga moslashtirishimiz kerak edi.

Global bozorda, misol uchun, Yandeks rus tilida, bu borada yaxshi ishlar qilingan. Lekin O‘zbekistonda Yandeks boshqa mahsulotlar bilan kirib kelgan bo‘lsa ham, o‘zbek tilidagi sun’iy intellekti yo‘q. Boshqa kompaniyalar bilan ham holat xuddi shunday: Microsoft, Google. Microsoft’ning o‘zbek tilidagi sun’iy intellekti yaqinda chiqdi, lekin uning funksiyalari juda chegaralangan. Ya’ni sun’iy intellekt o‘zbek tilida ishlashi uchun uning ustida o‘zbek mutaxassislari ishlashi kerak. Faqat dasturchilar emas, har bir soha vakili o‘z hissasini qo‘shishi kerak. Masalan, sud tizimi uchun shu soha vakili, tibbiyot uchun ham o‘z vakili bo‘lishi o‘zbek tilida qatnashishi kerak. Shunda bu narsa o‘zbekcha bo‘la oladi.

Hozirgi zamonaviy sun’iy intellektlar juda katta ma’lumotlar ustiga quriladi. Uni yaratish jarayonida katta hajmdagi ma’lumotlar kerak bo‘ladi. Shu narsa uzoq yillar davomida katta muammo bo‘lib kelyapti. Bizda esa o‘zbek tilidagi ochiq ma’lumotlar juda kam. Davlat tashkilotlari yopiq, ma’lumotlarni bermaydi. Maxfiy bo‘lmagan axborotlar ham yig‘ilmagan yoki tartibli qilib jamlanmagan. Ma’lumot olishimiz uchun bizga doim Statistika qo‘mitasi (hozirgi Statistika agentligi)ning sayti ko‘rsatiladi, lekin u yerda juda kam, chegaralangan ma’lumotlar. Shuning uchun ham ayni shu masalada “UzbekVoice AI” loyihasi turtki bo‘ldi. Loyiha rahbari Baxtiyor bilan tanishib qolganimda, bazalarni yig‘ayotganini aytib, sun’iy intellekt qismini yig‘ishda yordam berishi bo‘yicha taklif qildi. Shu bilan ishlar boshlanib ketdi. Eng katta turtki ma’lumotlar bazasi borligi bo‘ldi.

O‘zbek tilida birinchi bo‘lib matnni audioga yoki audioni matnga o‘giradigan shakllarini qilyapmiz desak noto‘g‘ri bo‘ladi, lekin bizning model aniqligi baland bo‘lganlardan dastlabkisi hisoblanadi. Biz buni ommaga chiqarayotgan birinchi tashkilot bo‘lamiz. “UzbekVoice AI”ning sharti shunday bo‘ldiki, bu ommaviy bo‘lishi kerak. Keyinchalik bulardan boshqalar ham foydalana olishi lozim, uni yopiq yoki o‘zimiz foydalanadigan narsa qilmaslikka kelishdik. O‘zimiz ham qanchadir qismidan tijoriy maqsadda yopiq tarzda foydalanamiz”, dedi Narzullayev.

Shuningdek, “UzbekVoice AI” loyihasining asoschisi Baxtiyor Hasanov ham sun’iy intellekt, umuman dasturchi, tadqiqotchilar foydalanishi uchun ishlab chiqilgan ma’lumotlar bazasi haqida gapirib berdi.

“O‘zbek tilini tushuntirishda kompyuterga juda katta ma’lumotlar bazasi kerak ekan. Bu ma’lumotlar bazasi esa ochiq resurslarda yo‘q. Shuning uchun “UzbekVoice AI” loyihasining maqsadi dasturchilarga, tadqiqotchilarga, umuman, jamoatchilikka ishlatish uchun ochiq baza yaratish bo‘ldi.

Loyihaning birinchi bosqichi 2021 yilda boshlangan. Unda 300 soatga yaqin ovoz yig‘ilgan va «Mozilla common voice» platformasiga joylashtirilgan. O‘tgan 2022 yilda ikkinchi bosqich bo‘ldi va ming soatdan ko‘p ovoz yig‘ildi. Maqsad esa o‘zbek tilidagi ochiq ma’lumotlarni barchaga berish. Uni bir shaxs yoki katta korporatsiyalar olib, monopoliya qilib olmasligi uchun shu ma’lumotlarni ochiq tarzda berish kerak deb o‘yladik.

Kelajakda shevani tushunish bo‘yicha ish olib bormoqchimiz. Bunga taxminan 4 ming soatli so‘zlar, ovozlar yetadi deb o‘ylayapmiz. 2023 yil oxiriga qadar yig‘ish niyatimiz bor. Ammo bir muammo bo‘lyaptiki, odamlar andijonlik, xorazmlik bo‘lsa ham matnni berganimizda shevada o‘qimas ekan. To‘g‘ri, sheva ozgina bilinishi mumkin, lekin jumla qanday yozilgan bo‘lsa, shunday o‘qiyverisharkan. Shuning uchun boshqacha yo‘l tutmoqchimiz endi. Bu haqda keyinroq e’lon qilamiz. Hozirga kelib shuning yarmiga erishib qoldik, ammo to‘liq emas.

Juda katta hajmda matnlar, ma’lumotlar bazasi bor. Mana shu matnlarni biz ishtirokchilarga bot orqali beramiz, ular o‘qiydi. Ishtirokchi o‘qigan matnlarni esa boshqa odamlar to‘g‘ri yoki noto‘g‘ri o‘qiganini tekshirib ko‘radi. To‘g‘ri mutolaa qilinganini ikki nafar odam tasdiqlasa, to‘g‘ri o‘qilgan matnlar bazasiga tushadi. Bundan esa tadqiqotchilar, sun’iy intellekt bilan shug‘ullanuvchilar ham foydalanishi mumkin bo‘ladi. Hisoblab chiqqanimizda korpusimizda 70 mingdan ko‘proq unikal so‘zlar ishlatilganini aniqladik. Biz kunlik hayotimizda ming yoki 1 ming 200 tadan ko‘p so‘zni ishlatmasak kerak.

2021 yildagi birinchi bosqichda 300 soatni yig‘ish uchun 2-3 oy vaqt ketdi, unda 100 tacha odam onlayn ishtirok etgandi. Ikkinchi bosqichda Yoshlar ishlari agentligi yordam berdi, bir oy davomida 200 kishi to‘liq vaqt oflayn tarzda ishladi. Mana shu 200 nafar odam ming soat yig‘ib berdi”, dedi u.

Yuqoridagi video orqali intervyuning to‘liq qismini tomosha qilishingiz mumkin.

Farruh Abdusattorov suhbatlashdi,
Dilshoda Shomirzayeva tayyorladi.
Tasvirchi Nuriddin Nursaidov,
montaj ustasi Asror Almurodov​
​​​​​​.

Ko‘proq yangiliklar: