Sun’iy intellekt tobora kuchayib bormoqda, lekin ko‘proq xatoga yo‘l qo‘ymoqda – OAV

Sun’iy intellekt bilan bog‘liq eng keng tarqalgan muammolardan biri bu «gallyutsinatsiyalar» bo‘lib, modellar ma’lumot va faktlarni biron bir manba bilan qo‘llab-quvvatlamasdan, shunchaki uydirayotgani ta’kidlanmoqda.

Foto: Thomas Fuller/SOPA Images/LightRocket via Getty Images

Sun’iy intellekt (SI) tilida fikr yurituvchi so‘nggi yirik modellar, xususan, OpenAI kompaniyasining eng kuchli modeli bo‘lgan o3 o‘zidan oldingilarga qaraganda ko‘proq xato qilmoqda, deb yozdi The New York Times.

Shu kabi muammolar boshqa kompaniyalarning SI modellarida, masalan, Google yoki Xitoyning DeepSeek startapida ham uchraydi. Ularning matematik imkoniyatlari sezilarli darajada oshishiga qaramay, javoblardagi xatolar soni faqat ortmoqda.

Ishlab chiquvchilarning sa’y-harakatlariga qaramay, biznes uchun sun’iy intellekt vositalari yaratadigan Vectara startapining bosh direktori Amr Avadalla gallyutsinatsiyalar doimo mavjud bo‘lishini aytdi.

Bunday gallyutsinatsiyaga misol sifatida Cursor vositasini texnik qo‘llab-quvvatlaydigan SI boti bo‘ldi. U asbobni faqat bitta kompyuterda ishlatish mumkinligini aytib, noto‘g‘ri ma’lumot berdi. Bu shikoyatlar to‘lqiniga va hatto foydalanuvchilar tomonidan akkauntlarning o‘chirilishiga olib keldi. Keyinchalik ma’lum bo‘lishicha, kompaniya bunday o‘zgarishlarni amalga oshirmagan - bularning barchasini bot o‘ylab topgan.

Turli modellarni alohida sinovdan o‘tkazishda gallyutsinatsiyalar, ya’ni xayoliy faktlar darajasi 79 foizga yetdi. OpenAI ichki testida o3 modeli mashhur shaxslar haqidagi savollarga berilgan javoblarning 33 foizida xatoga yo‘l qo‘ydi. Bu o1 modeliga nisbatan ikki baravar ko‘p. Yangi o4-mini modeli bundan ham yomonroq ishladi va 48 foiz holatda xatoga yo‘l qo‘ydi.

Umumiy savollarga javob berganda, o3 va o4-mini modellarida gallyutsinatsiyalar darajasi yanada yuqori edi - mos ravishda 51 foiz va 79 foiz. Taqqoslash uchun, eski o1 modeli xatolari 44 foizni tashkil etdi. OpenAI bunday xatolarning sabablarini tushunish uchun qo‘shimcha tadqiqotlar zarurligini tan olmoqda.

Kompaniyalar va tadqiqotchilar tomonidan o‘tkazilgan mustaqil testlar shuni ko‘rsatadiki, gallyutsinatsiyalar Google va DeepSeek fikrlash modellarida ham uchraydi. Kompaniyalarning ushbu xatolarni tuzatishga urinishlariga qaramay, o‘tgan yil ichida gallyutsinatsiyalar atigi 1-2 foizga kamaydi.

#OpenAI #Sun’iy intellekt #DeepSeek