3-bob. Baholash metodologiyasi

SI qanchalik ko'p ishlatilsa, halokatli muvaffaqiyatsizliklar ehtimoli shunchalik ortadi. Fundamental modellar paydo bo'lgan qisqa vaqt ichida biz allaqachon ko'plab muvaffaqiyatsizliklarga guvoh bo'ldik. Bir kishi chatbotning undovi bilan o'z joniga qasd qildi. Advokatlar SI tomonidan to'qib chiqarilgan soxta dalillarni sudga taqdim etishdi. "Air Canada kompaniyasi o'zining SI chatboti yo'lovchiga noto'g'ri ma'lumot bergani uchun tovon to'lashga majbur bo'ldi. SI natijalarining sifatini nazorat qilish yo'li bo'lmasa, ko'plab ilovalar uchun _SI_ning xavfi uning foydasidan ustun kelishi mumkin.

Jamoalar SI'ni joriy etishga shoshilar ekan, ko'pchilik SI ilovalarini reallikka aylantirishdagi eng katta to'siq baholash ekanligini tezda anglab yetadi. Ba'zi dasturlar uchun baholashni yo'lga qo'yish ishlab chiqish harakatlarining asosiy qismini egallashi mumkin.1

Baholashning muhimligi va murakkabligi tufayli, ushbu kitobda unga ikkita bob ajratilgan. Ushbu bobda erkin natijali (open-ended) modellarni baholash uchun ishlatiladigan turli baholash usullari, bu usullar qanday ishlashi va ularning cheklovlari yoritiladi. Keyingi bob esa ushbu usullardan dasturingiz uchun modellarni tanlash va dasturingizni baholash uchun baholash jarayonlari ketma-ketligini (evaluation pipeline) qurishga qaratilgan.

Garchi men baholashni alohida boblarda muhokama qilsam-da, uni alohida emas, balki butun tizim kontekstida ko'rib chiqish kerak. Baholashning maqsadi xatarlarni yumshatish va imkoniyatlarni ochishdir. Xatarlarni yumshatish uchun avvalo tizimingiz qayerda pand berishi mumkinligini aniqlab olishingiz va baholashni shuning atrofida loyihalashingiz kerak. Ko'pincha bu tizimdagi nosozliklarni ko'rish imkoniyatini oshirish uchun tizimni qayta loyihalashni talab qilishi mumkin. Tizimingiz qayerda oqsayotganini aniq tushunmasdan turib, hech qanday baholash metrikasi yoki vositasi tizimni mustahkam qila olmaydi.

Baholashdagi qiyinchiliklar

Baholash usullariga o'tishdan oldin, fundamental modellarni baholashdagi qiyinchiliklarni tan olish muhimdir. Baholash qiyin bo'lgani uchun, ko'pchilik og'zaki tavsiyalarga2 (masalan, kimdir X model yaxshi deganiga) yoki natijalarni shunchaki ko'z bilan chamalab ko'rishga3 qanoat qiladi. Bu xatarni yanada oshiradi va ilovani takomillashtirish jarayonini sekinlashtiradi. Buning o'rniga, natijalarni ishonchliroq qilish uchun biz tizimli baholashga sarmoya kiritishimiz kerak.

Ko'plab fundamental modellar til modeli komponentiga ega bo'lgani uchun, ushbu bobda til modellarini baholashda qo'llaniladigan metrikalar, jumladan, o'zaro entropiya (cross entropy) va perplexity (modelning matn oldidagi noaniqlik yoki "dovdirash" darajasi ) qisqacha ko'rib chiqiladi. Ushbu metrikalar til modellarini o'qitish va finetuning qilishni yo'naltirish uchun muhim bo'lib, ko'plab baholash usullarida tez-tez qo'llaniladi.

Fundamental modellarni baholash ayniqsa qiyin, chunki ular erkin natijalidir va men bu muammolarni qanday hal qilish bo'yicha eng yaxshi amaliyotlarni yoritib beraman. Ko'pgina dasturlar uchun inson baholovchilaridan foydalanish zaruriy variant bo'lib qolmoqda. Biroq, inson annotatsiyalari qanchalik sekin va qimmat bo'lishi mumkinligini hisobga olsak, maqsad jarayonni avtomatlashtirishdir. Ushbu kitobda avtomatik baholashga e'tibor qaratiladi, u ham aniq, ham subyektiv baholashni o'z ichiga oladi.

Subyektiv baholashning yuksalayotgan yulduzi — bu "SI-baholovchi" (AI as a judge) yondashuvi, ya'ni SI javoblarini baholash uchun SI'dan foydalanish. U subyektivdir, chunki ball SI-baholovchi qaysi model va promptdan foydalanishiga bog'liq. Garchi bu yondashuv sohada jadal ommalashayotgan bo'lsa-da, u SI bu muhim vazifa uchun yetarlicha ishonchli emas deb hisoblaydiganlar tomonidan kuchli qarshilikka ham uchramoqda. Men ushbu narsalarni muhokama qilishga chuqurroq kirib borayotganimdan juda hayajondaman va umid qilamanki, sizda ham shunday bo'ladi.

Izohlar

  1. 2023-yil dekabr oyida OpenAI hammuassisi Greg Brokman shunday deb tvit qoldirdi: "Baholashlar, ajablanarlisi, ko'pincha sizga kerak bo'lgan yagona narsadir."

  2. "a16z"ning 2023-yilgi tadqiqoti shuni ko'rsatdiki, 70 nafar qaror qabul qiluvchilardan 6 tasi modellarni og'zaki gaplar asosida baholagan.

  3. Shuningdek, "vibe check" (kayfiyatni tekshirish) deb ham ataladi.