So‘nggi yillarda ChatGPT kabi sun’iy intellekt modellari matnlarni qayta ishlash va generatsiya qilishda sezilarli darajada oldinga siljidi. Modellarning javoblari shu qadar hayratlanarliki, ular hatto yuqori darajadagi «intellekt»dan darak bermoqda. Biroq mutaxassislarning ta’kidlashicha, murakkab matematik masalalarni yechish zamonaviy modellarning zaif nuqtasi bo‘lib qolmoqda. Ajobiy muvaffaiqyat va boshlang‘ich hamda o‘rta darajadagi matematik masalalarni yechish qobiliyatiga qaramay, gap oliy matematika haqida ketganida sun’iy intellekt (SI) imkoniyatlari cheklanib qolyapti.
SI modellarini baholashda olimlar turli etalon testlar yoki benchmarklardan foydalanadi. Bugungi kunda MATH va GSM8K eng mashhur testlardan hisoblanadi. Ushbu testlarda ko‘plab til modellari 90 foizga yaqin to‘g‘ri javobni topmoqda. Biroq yangi test mualliflariga ko‘ra, bunday testlar cheklangan murakkablikka ega va SIning imkoniyatini to‘liq baholashga xizmat qilmaydi. Matematikani yuqori darajada tushunishini aniqlash uchun murakkab benchmark talab etiladi. FrontierMath shu sababli paydo bo‘ldi.
Yangi testni tayyorlash jarayonida ekspertlar mashhur matematiklarga murojaat qilib, ularning oldinlari hech qayerda e’lon qilinmagan eng murakkab masalalarini olgan. Qo‘lga kiritilgan yuzlab masalalarning ayrimlari shu qadar murakkabligidan oddiy inson uni yechishga bir necha kunini sarflaydi.
FrontierMath’ning o‘ziga xosligi shundaki, u sonlar nazariyasidan algebraik geometriyagacha bo‘lgan mavzularni qamrab oladi. Bunday yondashuv SIning oddiy algoritmlardan foydalanish imkoniyatini cheklab, chuqur bilim talab etadi. Shu boisdan mazkur testda yuqori natijaga erishmoqchi bo‘lgan modellar nafaqat ko‘p miqdorda ma’lumotga, balki masalani yechishda tahlil qilish va ijodkorlik qobiliyatiga ham ega bo‘lishi kerak.
Dastlabki sinovlar FrontierMath zamonaviy sun’iy intellektlar uchun qanchalik murakkab ekanini ko‘rsatib berdi. Oldingi testlarda yuqori natijalarni qayd etgan modellar yangi testda 2 foiz ham to‘g‘ri javob topa olmadi. Ushbu natija SIning hozirgi darajasi matematik fikrlashni talab etadigan murakkab masalalarni yechish imkoniyatidan hali ancha uzoqda ekanini namoyish etdi.