Xulosa

SI modellar qanchalik kuchayib borsa, halokatli nosozliklar ehtimoli shunchalik ortadi, bu esa baholashni yanada muhimroq qiladi. Ayni paytda, erkin natijali (open-ended), qudratli modellarni baholash qiyin. Bu qiyinchiliklar ko'plab jamoalarni inson baholashiga yuzlanishga majbur qiladi. Boshlang'ich tekshiruvlar (sanity checks) uchun jarayonda insonlarning bo'lishi har doim foydali va ko'p hollarda inson baholashi juda muhim. Biroq, ushbu bobda avtomatik baholashning turli yondashuvlariga e'tibor qaratiladi.

Bob fundamental modellarni an'anaviy ML modellariga qaraganda nima uchun baholash qiyinroq ekanligi haqidagi muhokama bilan boshlandi. Garchi ko'plab yangi baholash texnikalari ishlab chiqilayotgan bo'lsa-da, baholashga qilingan sarmoyalar hali ham model va dasturlarni ishlab chiqishga qilingan sarmoyalardan ortda qolmoqda.

Ko'pgina fundamental modellar til modeli komponentiga ega bo'lgani uchun, biz perplexity va o'zaro entropiyani o'z ichiga olgan til modellashtirish metrikalariga chuqurroq nazar tashladik. Men suhbatlashgan ko'plab odamlar bu metrikalarni chalkash deb bilishadi, shuning uchun men ushbu metrikalarni qanday talqin qilish va ulardan baholash hamda ma'lumotlarga ishlov berishda qanday foydalanish haqida bo'lim kiritdim.

Keyin, ushbu bobda e'tiborni erkin natijali javoblarni baholashning turli yondashuvlariga, jumladan, funksional to'g'rilik, o'xshashlik ballari va SI-baholovchiga qaratib o'tdik. Dastlabki ikkita baholash yondashuvi aniq (exact), SI-baholovchi yondashuvi esa subyektivdir.

Aniq baholashdan farqli o'laroq, subyektiv metrikalar baholovchiga juda bog'liq. Ularning ballarini qanday baholovchilar ishlatilayotgani kontekstida talqin qilish kerak. Turli SI-baholovchilar tomonidan bir xil sifatni o'lchashga qaratilgan ballar taqqoslanadigan bo'lmasligi mumkin. SI-baholovchilar, barcha SI dasturlari singari, takomillashtirilishi kerak, ya'ni ularning xulosalari o'zgaradi. Bu ularni vaqt o'tishi bilan dasturning o'zgarishlarini kuzatish uchun benchmark sifatida ishonchsiz qiladi. Garchi istiqbolli bo'lsa-da, SI-baholovchilar aniq baholash, inson baholashi yoki ikkalasi bilan to'ldirilishi kerak.

Modellarni baholashda siz har bir modelni mustaqil ravishda baholashingiz va keyin ularni ballari bo'yicha reytinglashingiz mumkin. Yoki bo'lmasa, siz ularni qiyosiy signallar yordamida reytinglashingiz mumkin: ikki modeldan qaysi biri yaxshiroq? Qiyosiy baholash sportda, ayniqsa shaxmatda keng tarqalgan va SI baholashida ommalashib bormoqda. Ham qiyosiy baholash, ham yakuniy o'qitishni moslashtirish jarayoni afzallik signallariga muhtoj, ularni yig'ish esa qimmat. Bu afzallik modellarini ishlab chiqishga turtki bo'ldi: foydalanuvchilar qaysi javobni afzal ko'rishini bashorat qiladigan ixtisoslashgan SI-baholovchilar.

Garchi til modellashtirish metrikalari va qo'lda ishlab chiqilgan o'xshashlik o'lchovlari ancha vaqtdan beri mavjud bo'lsa-da, SI-baholovchi va qiyosiy baholash faqat fundamental modellar paydo bo'lishi bilan ommalashdi. Ko'pgina jamoalar ularni o'zlarining baholash jarayonlari zanjiriga (evaluation pipelines) qanday kiritishni o'rganmoqda. Erkin natijali dasturlarni baholash uchun ishonchli baholash jarayonlari ketma-ketligini qanday qurish — keyingi bobning mavzusidir.