4-bob. SI tizimlarini baholash
Model faqat o'ziga yuklatilgan vazifani bajarsagina qadrli bo'ladi. Modellarni yakka holda emas, aynan o'z dasturingiz doirasida baholash lozim. 3-bobda avtomatik baholashning turli yondashuvlari muhokama qilingan edi. Ushbu bobda esa ana shu yondashuvlardan o'z dasturlaringiz uchun modellarni baholashda qanday foydalanish masalasi ko'rib chiqiladi.
Ushbu bob uch qismdan iborat. Bu bobni dasturlaringizni baholashda qo'llashingiz mumkin bo'lgan mezonlar va ularning qanday ta'riflanishi hamda hisoblanishini muhokama qilishdan boshlaymiz. Masalan, ko'pchilik SI'ning faktlarni to'qib chiqarishidan xavotirda — faktik izchillik (factual consistency) qanday aniqlanadi? Matematika, fan, mulohaza yuritish va qisqacha bayon qilish kabi sohaga xos qobiliyatlar qanday o'lchanadi?
Ikkinchi qism model tanlashga bag'ishlangan. Tanlash uchun fundamental modellar soni ortib borayotgan bir paytda, o'z dasturingiz uchun to'g'ri modelni tanlash boshi berk ko'chaga olib kirishi mumkin. Modellarni turli mezonlar bo'yicha baholash uchun minglab benchmarklar joriy etilgan. Bu benchmarklarga ishonish mumkinmi? Qaysi benchmarklardan foydalanishni qanday tanlaysiz? Bir nechta benchmarklarni jamlaydigan ochiq reyting jadvallariga-chi?
Model landshafti xususiy va ochiq manbali modellar bilan to'lib-toshgan. Ko'pgina jamoalar qayta-qayta duch keladigan savol — o'z modellarini o'z serverlarida ishga tushirib ishlatishi kerakmi yoki model API'sidan foydalanish kerakmi? Ochiq manbali modellar asosida qurilgan model API xizmatlarining paydo bo'lishi bilan bu savol yanada noziklashdi.
So'nggi qismda esa vaqt o'tishi bilan dasturingiz rivojlanishiga yo'l ko'rsatib turadigan baholash jarayonlari ketma-ketligini ishlab chiqish muhokama qilinadi. Bu qismda biz kitob davomida o'rgangan usullarimizni jamlab, aniq amaliy dasturlarni baholashni ko'rib chiqamiz.
