Modellarni qiyosiy baholash bilan reytinglash

Ko'pincha, siz modellarni ularning ballari qiziqtirgani uchun emas, balki qaysi model siz uchun eng yaxshi ekanligini bilishni xohlaganingiz uchun baholaysiz. Sizga kerak bo'lgan narsa — bu ushbu modellarning reytingidir. Siz modellarni nuqtaviy baholash (pointwise evaluation) yoki qiyosiy baholash (comparative evaluation) yordamida reytinglashingiz mumkin.

Nuqtaviy baholashda siz har bir modelni mustaqil ravishda baholaysiz,¹ so'ng ularni ballari bo'yicha reytinglaysiz. Masalan, agar siz qaysi raqqosa eng yaxshi ekanligini bilmoqchi bo'lsangiz, har bir raqqosani alohida baholaysiz, ularga ball berasiz, so'ng eng yuqori ballga ega bo'lgan raqqosani tanlaysiz.

Qiyosiy baholashda esa siz modellarni bir-biriga qarshi baholaysiz va qiyoslash natijalaridan reyting hisoblaysiz. Xuddi shu raqs tanlovi uchun, siz barcha nomzodlardan yonma-yon raqsga tushishni so'rashingiz va hakamlardan qaysi nomzodning raqsi ularga ko'proq yoqqanini so'rashingiz va ko'pchilik hakamlar afzal ko'rgan raqqosani tanlashingiz mumkin.

Sifati subyektiv bo'lgan javoblar uchun qiyosiy baholashni amalga oshirish odatda nuqtaviy baholashdan osonroq. Masalan, ikkita qo'shiqdan qaysi biri yaxshiroq ekanligini aytish har bir qo'shiqqa aniq ball berishdan osonroq.

SI sohasida qiyosiy baholash birinchi marta 2021-yilda Anthropic tomonidan turli modellarni reytinglash uchun ishlatilgan. U, shuningdek, tomonidan amalga oshirilgan modellarni juftlikda taqqoslash natijasida hisoblangan ballar yordamida modellarni reytinglaydigan mashhur LMSYS'ning Chatbot Arena reyting jadvalining (leaderboard) asosini tashkil etadi.

Ko'plab model provayderlari o'z modellarini real amaliyotda baholash uchun qiyosiy baholashdan foydalanadilar. 3-10-rasmda ChatGPT'ning o'z foydalanuvchilaridan ikkita natijani yonma-yon taqqoslashni so'rayotganiga misol keltirilgan. Bu natijalar turli modellar tomonidan yoki bir xil model tomonidan turli sampling parametrlari bilan generatsiya qilingan bo'lishi mumkin.

3-10-rasm. ChatGPT vaqti-vaqti bilan foydalanuvchilardan ikkita natijani yonma-yon taqqoslashni so'raydi.

Har bir so'rov uchun ikkita yoki undan ortiq model javob berish uchun tanlanadi. Baholovchi, u inson yoki SI bo'lishi mumkin, g'olibni tanlaydi. Ko'plab dasturchilar, agar qoralamalar bir xil darajada yaxshi yoki yomon bo'lsa, g'olib tasodifiy tanlanishining oldini olish uchun durangga ruxsat berishadi.

Yodda tutish kerak bo'lgan juda muhim narsa shundaki, hamma savollarga ham afzallik asosida javob berilmasligi kerak. Ko'p savollarga buning o'rniga to'g'rilik asosida javob berilishi lozim. Tasavvur qiling, siz modeldan "Uyali telefon nurlanishi va miya o'smalari o'rtasida bog'liqlik bormi?" deb so'raysiz va model sizga tanlash uchun ikkita variantni — "Ha" va "Yo'q"ni taqdim etdi. Afzallikka asoslangan ovoz berish noto'g'ri signallarga olib kelishi mumkin va agar ular modelingizni o'qitish uchun ishlatilsa, bu modelning noto'g'ri xatti-harakatlariga sabab bo'lishi mumkin.

Foydalanuvchilardan tanlashni so'rash, shuningdek, ularning hafsalasini pir qilishi mumkin. Tasavvur qiling, siz javobini bilmaganingiz uchun modeldan matematik savol so'raysiz, model esa sizga ikkita har xil javob berib, o'zingiz afzal ko'rganini tanlashingizni so'raydi. Agar siz to'g'ri javobni bilganingizda, birinchi navbatda modeldan so'ramagan bo'lardingiz.

Foydalanuvchilardan qiyosiy fikr-mulohazalarni yig'ishda, qaysi savollarni afzallik bo'yicha ovoz berish bilan hal qilish mumkin va qaysilarini mumkin emasligini aniqlash bir muammodir. Afzallikka asoslangan ovoz berish faqat ovoz beruvchilar mavzu bo'yicha bilimdon bo'lgandagina ishlaydi. Bu yondashuv odatda SI stajyor yoki yordamchi sifatida xizmat qiladigan, foydalanuvchilarga o'zlari qanday qilishni biladigan vazifalarni tezlashtirishga yordam beradigan dasturlarda ishlaydi — foydalanuvchilar SI'dan o'zlari qanday qilishni bilmaydigan vazifalarni bajarishni so'raydigan joylarda emas.

Qiyosiy baholashni A/B test bilan adashtirmaslik kerak. A/B testda foydalanuvchi bir vaqtning o'zida faqat bitta nomzod modeldan natijani ko'radi. Qiyosiy baholashda esa foydalanuvchi bir vaqtning o'zida bir nechta modeldan natijalarni ko'radi.

Har bir taqqoslash match deb ataladi. Bu jarayon 3-5-jadvalda ko'rsatilganidek, bir qator taqqoslashlarga olib keladi.

Match #	Model A	Model B	G'olib
1	Model 1	Model 2	Model 1
2	Model 3	Model 10	Model 10
3	Model 7	Model 4	Model 4
…

3-5-jadval. Juftlik model taqqoslashlari tarixiga misollar.

A modelining B modelidan afzal ko'rilish ehtimoli — bu A'ning B ustidan g'alaba ko'rsatkichidir (win rate). Biz bu g'alaba ko'rsatkichini A va B o'rtasidagi barcha matchlarni ko'rib chiqib va A g'alaba qozongan foizni hisoblash orqali topishimiz mumkin.

Agar faqat ikkita model bo'lsa, ularni reytinglash oson. Ko'proq g'alaba qozongan model yuqoriroq o'rinni egallaydi. Modellar qancha ko'p bo'lsa, reytinglash shunchalik qiyinlashadi. Aytaylik, bizda 3-6-jadvalda ko'rsatilganidek, model juftliklari o'rtasidagi empirik g'alaba ko'rsatkichlariga ega bo'lgan beshta model bor. Ma'lumotlarga qarab, bu beshta modelni qanday reytinglash kerakligi aniq emas.

Match #	Model A	Model B	# matchlar	A >> B
1	Model 1	Model 2	1000	90%
2	Model 1	Model 3	1000	40%
3	Model 1	Model 4	1000	15%
4	Model 1	Model 5	1000	10%
5	Model 2	Model 3	1000	60%
6	Model 2	Model 4	1000	80%
7	Model 2	Model 5	1000	80%
8	Model 3	Model 4	1000	70%
9	Model 3	Model 5	1000	10%
10	Model 4	Model 5	1000	20%

3-6-jadval. Beshta modelning namunaviy g'alaba ko'rsatkichlari. "A >> B" ustuni A'ning B'dan afzal ko'rilishi hodisasini bildiradi.

Qiyosiy signallar berilganda, keyin modellar reytingini hisoblash uchun reyting algoritmidan foydalaniladi. Odatda, bu algoritm avval har bir model uchun qiyosiy signallardan ball hisoblaydi va keyin modellarni ballari bo'yicha reytinglaydi.

Reyting algoritmlari

Qiyosiy baholash SI sohasida yangi bo'lsa-da, boshqa sohalarda deyarli bir asrdan beri mavjud. U ayniqsa sport va video o'yinlarda mashhur. Bu boshqa sohalar uchun ishlab chiqilgan ko'plab reyting algoritmlarini, masalan, Elo, Bradley–Terry va TrueSkill'ni, SI modellarini baholashga moslashtirish mumkin. LMSYS'ning Chatbot Arena'si dastlab modellar reytingini hisoblash uchun Elo'dan foydalangan, ammo keyinroq Bradley–Terry algoritmidan foydalanishga o'tgan, chunki ular Elo'ning baholovchilar va promptlar tartibiga sezgir ekanligini aniqlashgan.²

Agar har qanday model juftligi uchun yuqori o'rindagi model pastki o'rindagi modelga qarshi matchda g'alaba qozonish ehtimoli yuqoriroq bo'lsa, reyting to'g'ri hisoblanadi. Agar A modeli B modelidan yuqoriroq o'rinda tursa, foydalanuvchilar A modelini B modelidan yarim hollardan ko'prog'ida afzal ko'rishlari kerak.

Bu nuqtai nazardan yondashsak, model reytingini tuzish aslida bir bashorat qilish muammosidir. Biz o'tgan match natijalariga asoslanib reyting yaratamiz va undan kelajakdagi matchlar natijasini oldindan aytish uchun foydalanamiz. Turli reyting algoritmlari turlicha reytinglar keltirib chiqarishi mumkin va aslida qaysi reyting "to'g'ri" ekanligini belgilovchi yagona etalon haqiqat mavjud emas. Reytingning sifati uning kelajakdagi match natijalarini bashorat qilishda qanchalik uddaburon ekanligi bilan o'lchanadi. Chatbot Arena reytingini shaxsan tahlil qilib ko'rib, shunga amin bo'ldimki, u tomonidan tuzilgan reyting ancha ishonchli, hech bo'lmaganda o'zaro yetarlicha match o'tkazgan model juftliklari uchun bu bashoratlar o'zini oqlaydi. Tahlilning to'liq tafsilotlari bilan kitobning GitHub repozitoriysida tanishishingiz mumkin.

Qiyosiy baholashdagi qiyinchiliklar

Nuqtaviy baholashda jarayonning eng mashaqqatli qismi to'g'ri signallarni yig'ish uchun benchmark va metrikalarni ishlab chiqishdir. Modellarni reytinglash uchun ballarni hisoblash esa oson. Qiyosiy baholashda esa ham signal yig'ish, ham modellarni reytinglash qiyin. Ushbu bo'limda qiyosiy baholashning uchta umumiy muammosi ko'rib chiqiladi.

Miqyoslashdagi to'siqlar

Qiyosiy baholash katta hajmdagi ma'lumotlarni talab qiladi. Taqqoslanishi kerak bo'lgan model juftliklari soni modellar soniga nisbatan kvadratik ravishda o'sadi. 2024-yil yanvar oyida LMSYS 244 000 ta taqqoslash yordamida 57 ta modelni baholadi. Garchi bu juda ko'p taqqoslashdek tuyulsa-da, bu har bir model juftligiga o'rtacha atigi 153 ta taqqoslash to'g'ri keladi (57 ta model 1596 ta model juftligini tashkil etadi). Fundamental modeldan bajarishini xohlagan vazifalarning keng doirasini hisobga olsak, bu kichik raqam.

Yaxshiyamki, qaysi biri yaxshiroq ekanligini aniqlash uchun har doim ham ikki model o'rtasida to'g'ridan-to'g'ri taqqoslashlar kerak emas. Reyting algoritmlari odatda tranzitivlikni (transitivity) taxmin qiladi. Agar A modeli B'dan yuqoriroq o'rinda tursa va B modeli C'dan yuqoriroq o'rinda tursa, unda tranzitivlik bilan siz A'ning C'dan yuqoriroq o'rinda ekanligini xulosa qilishingiz mumkin. Bu shuni anglatadiki, agar algoritm A'ning B'dan va B'ning C'dan yaxshiroq ekanligiga amin bo'lsa, u A'ning yaxshiroq ekanligini bilish uchun A'ni C'ga qarshi taqqoslashiga hojat yo'q.

Biroq, bu tranzitivlik taxmini SI modellari uchun o'rinli ekanligi noma'lum. SI baholash uchun Elo'ni tahlil qiladigan ko'plab maqolalar tranzitivlik taxminini cheklov sifatida keltirib o'tadi (Boubdir va boshq.; Balduzzi va boshq.; va Munos va boshq.). Ular inson xohish-istaklari har doim ham tranzitiv emasligini ta'kidlashadi. Bundan tashqari, tranzitivlikning buzilishi turli model juftliklarining turli baholovchilar tomonidan va turli promptlarda baholanishi tufayli ham yuzaga kelishi mumkin.

Yangi modellarni baholash muammosi ham mavjud. Mustaqil baholashda faqat yangi modelni baholash kerak bo'ladi. Qiyosiy baholashda esa, yangi model mavjud modellarga qarshi baholanishi kerak, bu esa mavjud modellarning reytingini o'zgartirishi mumkin.

Bu, shuningdek, xususiy modellarni baholashni ham qiyinlashtiradi. Tasavvur qiling, siz kompaniyangiz uchun ichki ma'lumotlardan foydalanib model yaratdingiz. Ochiq modeldan foydalanish foydaliroq bo'ladimi yoki yo'qligini hal qilish uchun ushbu modelni ochiq modellar bilan taqqoslamoqchisiz. Agar siz o'z modelingiz uchun qiyosiy baholashdan foydalanmoqchi bo'lsangiz, o'zingizning qiyosiy signallaringizni yig'ishingiz va o'z reyting jadvalingizni yaratishingiz yoki o'sha ochiq reyting jadvallaridan biriga siz uchun xususiy baholash o'tkazish uchun pul to'lashingiz kerak bo'ladi.

Miqyoslash to'sig'ini yaxshiroq match algoritmlari yordamida yumshatish mumkin. Hozirgacha biz har bir match uchun modellar tasodifiy tanlanadi, shuning uchun barcha model juftliklari taxminan bir xil miqdordagi matchlarda paydo bo'ladi, deb taxmin qildik. Biroq, barcha model juftliklarini bir xil darajada taqqoslash shart emas. Biror model juftligining natijasiga ishonch hosil qilganimizdan so'ng, ularni bir-biriga qarshi qo'yishni to'xtatishimiz mumkin. Samarali match algoritmi umumiy reytingdagi noaniqlikni eng ko'p kamaytiradigan matchlarni sampling qilishi kerak.

Standartlashtirish va sifat nazoratining yetishmasligi

Qiyosiy signallarni yig'ishning bir usuli — bu LMSYS Chatbot Arena qilganidek, taqqoslashlarni hamjamiyatga kraudsorsing qilishdir. Har kim veb-saytga kirishi, prompt kiritishi, ikkita anonim modeldan ikkita javob olishi va yaxshirog'iga ovoz berishi mumkin. Faqat ovoz berish tugagandan so'nggina model nomlari oshkor qilinadi.

Bu yondashuvning afzalligi shundaki, u keng doiradagi signallarni qamrab oladi va uni aldash nisbatan qiyin.³ Biroq, kamchiligi shundaki, standartlashtirish va sifat nazoratini ta'minlash qiyin.

Birinchidan, internetga kirish imkoniga ega bo'lgan har kim bu modellarni baholash uchun istalgan promptdan foydalanishi mumkin va yaxshiroq javob nima bo'lishi kerakligi haqida hech qanday standart yo'q. Ko'ngillilardan javoblarni fakt-tekshiruvidan o'tkazishni kutish ortiqchalik qilishi mumkin, shuning uchun ular bilmagan holda yaxshiroq eshitiladigan, ammo faktik jihatdan noto'g'ri bo'lgan javoblarni afzal ko'rishlari mumkin.

Ba'zi odamlar xushmuomala va mo'tadil javoblarni afzal ko'rishlari mumkin, boshqalari esa filtrsiz javoblarni afzal ko'rishlari mumkin. Bu ham yaxshi, ham yomon bo'lishi mumkin. U real hayotdagi inson xohish-istaklarini qamrab olishga yordam berishi jihatidan yaxshi. Lekin real hayotdagi inson xohish-istaklari barcha ishlatilish senariylari uchun mos kelmasligi mumkin, bu esa yomon. Masalan, agar foydalanuvchi modeldan nomaqbul hazil aytishni so'rasa va model rad etsa, foydalanuvchi unga past baho berishi mumkin. Biroq, siz dastur yaratuvchisi sifatida modelning rad etishini afzal ko'rishingiz mumkin. Ba'zi foydalanuvchilar hatto reytingning aniqligiga putur yetkazib, afzal ko'rilgan javoblar sifatida toksik javoblarni ataylab tanlashlari mumkin.

Ikkinchidan, taqqoslashlarni kraudsorsing qilish foydalanuvchilardan modellarni o'zlarining ish muhitlaridan tashqarida baholashni talab qiladi. Real hayotiy asos bo'lmagan holda, sinov promptlari bu modellarning real dunyoda qanday ishlatilishini aks ettirmasligi mumkin. Odamlar shunchaki xayoliga kelgan birinchi promptlardan foydalanishlari va murakkab promptlash texnikalaridan foydalanishlari ehtimoldan yiroq.

LMSYS Chatbot Arena tomonidan 2023-yilda nashr etilgan 33 000 ta prompt orasida ularning 180 tasi "hello" va "hi" bo'lib, bu ma'lumotlarning 0.55 foizini tashkil etadi va bu hali "hello!", "hello.", "hola", "hey" va hokazo kabi variantlarni hisobga olmaganda. Ko'plab boshqotirmalar mavjud. "X'ning 3 ta opasi bor, har birining bittadan ukasi bor. X'ning nechta ukasi bor?" degan savol 44 marta berilgan.

Oddiy promptlarga javob berish oson, bu esa modellar samaradorligini farqlashni qiyinlashtiradi. Modellarni juda ko'p oddiy promptlar yordamida baholash reytingning aniqligiga putur yetkazishi mumkin.

Agar ochiq reyting jadvali sizning ichki ma'lumotlar bazalaringizdan olingan aloqador hujjatlar bilan kontekstni boyitish kabi murakkab kontekst qurishni qo'llab-quvvatlamasa, uning reytingi biror modelning sizning RAG tizimingiz uchun qanchalik yaxshi ishlashini aks ettirmaydi. Yaxshi javoblar generatsiya qilish qobiliyati eng aloqador hujjatlarni topib olish qobiliyatidan farq qiladi.

Standartlashtirishni ta'minlashning bir ehtimoliy yo'li — bu foydalanuvchilarni oldindan belgilangan promptlar to'plami bilan cheklashdir. Biroq, bu reyting jadvalining turli xil ishlatilish senariylarini qamrab olish qobiliyatiga ta'sir qilishi mumkin. LMSYS buning o'rniga foydalanuvchilarga istalgan promptdan foydalanishga ruxsat beradi, lekin keyin o'zining ichki modeli yordamida qiyin promptlarni saralab oladi va modellarni faqat shu qiyin promptlar yordamida reytinglaydi.

Yana bir usul — faqat biz ishonishimiz mumkin bo'lgan baholovchilardan foydalanish. Biz baholovchilarni ikkita javobni taqqoslash mezonlari bo'yicha o'qitishimiz yoki ularni amaliy promptlar va murakkab promptlash texnikalaridan foydalanishga o'rgatishimiz mumkin. Bu "Scale" o'zining xususiy qiyosiy reyting jadvali bilan qo'llaydigan yondashuvdir. Bu yondashuvning kamchiligi shundaki, u qimmat va biz olishimiz mumkin bo'lgan taqqoslashlar sonini keskin kamaytirishi mumkin.

Yana bir variant — qiyosiy baholashni o'z dasturiy mahsulotlaringizga joriy etish va foydalanuvchilarga o'z ish jarayonlari davomida modellarni baholash imkonini berishdir. Masalan, kod generatsiyasi vazifasi uchun siz foydalanuvchilarga ularning kod muharriri ichida ikkita kod parchasini taklif qilishingiz va ulardan yaxshirog'ini tanlashni so'rashingiz mumkin. Ko'pgina chat dasturlari allaqachon buni qilmoqda. Biroq, avval aytib o'tilganidek, foydalanuvchi ekspert bo'lmagani uchun qaysi kod parchasi yaxshiroq ekanligini bilmasligi mumkin.

Bundan tashqari, foydalanuvchilar ikkala variantni ham o'qimasdan, shunchaki tasodifiy birini bosishlari mumkin. Bu natijalarga juda ko'p "shovqin" (noise) qo'shishi mumkin. Shunday bo'lsa-da, to'g'ri ovoz bergan foydalanuvchilarning kichik bir foizidan olingan signallar ba'zan qaysi model yaxshiroq ekanligini aniqlashga yordam berish uchun yetarli bo'lishi mumkin.

Ba'zi jamoalar inson baholovchilardan ko'ra SI'ni afzal ko'rishadi. SI o'qitilgan inson ekspertlari kabi yaxshi bo'lmasligi mumkin, ammo u tasodifiy internet foydalanuvchilaridan ko'ra ishonchliroq bo'lishi mumkin.

Qiyosiy samaradorlikdan mutlaq samaradorlikka

Ko'pgina dasturlar uchun bizga eng yaxshi model shart emas. Bizga yetarlicha yaxshi bo'lgan model kerak. Qiyosiy baholash bizga qaysi model yaxshiroq ekanligini aytadi. U modelning qanchalik yaxshi ekanligini yoki bu model bizning ishlatilish senariyimiz uchun yetarlicha yaxshimi yoki yo'qligini aytmaydi. Aytaylik, biz B modeli A modelidan yaxshiroq degan reytingni oldik. Quyidagi holatlarning har biri to'g'ri bo'lishi mumkin:

B modeli yaxshi, lekin A modeli yomon.
Ham A, ham B modellari yomon.
Ham A, ham B modellari yaxshi.

Qaysi holat to'g'ri ekanligini aniqlash uchun sizga baholashning boshqa shakllari kerak bo'ladi.

Tasavvur qiling, biz mijozlarni qo'llab-quvvatlash uchun A modelidan foydalanyapmiz va A modeli barcha so'rovlarning 70 foizini hal qila oladi. Endi A'ga qarshi 51% hollarda g'alaba qozonadigan B modelini ko'rib chiqaylik. Bu 51% g'alaba ko'rsatkichi B modeli hal qila oladigan so'rovlar soniga qanday aylanishi noaniq. Bir necha kishi menga o'z tajribalarida g'alaba ko'rsatkichidagi 1% o'zgarish ba'zi dasturlarda ulkan samaradorlik o'sishiga, boshqa dasturlarda esa minimal o'sishga olib kelishi mumkinligini aytishgan.

A'ni B'ga almashtirishga qaror qilganda, inson xohish-istaklari hamma narsani hal qilmaydi. Bizni xarajat kabi boshqa omillar ham qiziqtiradi. Qanday samaradorlik o'sishini kutishni bilmaslik xarajat-foyda tahlilini qilishni qiyinlashtiradi. Agar B modeli A'dan ikki baravar qimmat tursa, qiyosiy baholash B'dan olinadigan samaradorlik o'sishi qo'shimcha xarajatga arziydimi yoki yo'qligini aniqlashimizga yordam berish uchun yetarli emas.

Qiyosiy baholashning kelajagi

Qiyosiy baholashning shuncha cheklovlarini hisobga olib, uning kelajagi bormi, deb o'ylayotgan bo'lishingiz mumkin. Qiyosiy baholashning ko'plab afzalliklari bor. Birinchidan, "Yakuniy o'qitish" bo'limida muhokama qilinganidek, odamlar ikkita natijani taqqoslash har bir natijaga aniq ball berishdan osonroq ekanligini aniqlashgan. Modellar kuchayib, inson samaradorligidan oshib ketgan sari, inson baholovchilarining model javoblariga aniq ball berishi imkonsiz bo'lib qolishi mumkin. Biroq, inson baholovchilari hali ham farqni aniqlay olishlari mumkin va qiyosiy baholash yagona variant bo'lib qolishi mumkin. Masalan, Llama 2 maqolasida aytilishicha, model eng yaxshi inson annotatorlarining qobiliyatidan tashqaridagi yozuv turiga kirganda ham, insonlar ikkita javobni taqqoslaganda qimmatli fikr-mulohazalar berishi mumkin (Touvron va boshq., 2023).

Ikkinchidan, qiyosiy baholash biz uchun muhim bo'lgan sifatni — inson xohish-istaklarini — qamrab olishni maqsad qiladi. U SI'ning doimiy kengayib borayotgan imkoniyatlariga yetib olish uchun doimiy ravishda ko'proq benchmarklar yaratish bosimini kamaytiradi. Model samaradorligi mukammal baholarga erishganda yaroqsiz bo'lib qoladigan benchmarklardan farqli o'laroq, qiyosiy baholashlar yangiroq, kuchliroq modellar taqdim etilar ekan, hech qachon "to'yinmaydi".

Qiyosiy baholashni aldash nisbatan qiyin, chunki modelingizni etalon ma'lumotlarda o'qitish kabi oson aldash yo'llari yo'q. Shu sababli, ko'pchilik ochiq qiyosiy reyting jadvallarining natijalariga boshqa har qanday ochiq reyting jadvallaridan ko'ra ko'proq ishonadi.

Qiyosiy baholash bizga boshqa yo'l bilan olinishi mumkin bo'lmagan, modellar haqida farqlovchi signallarni berishi mumkin. Oflayn baholash uchun u baholash benchmarklariga ajoyib qo'shimcha bo'lishi mumkin. Onlayn baholash uchun esa u A/B testga to'ldiruvchi bo'lishi mumkin.

Izohlar

Masalan, Likert shkalasidan foydalanish. ↩
Garchi Chatbot Arena Elo reyting algoritmidan foydalanishni to'xtatgan bo'lsa-da, uning dasturchilari bir muncha vaqt o'zlarining model reytinglarini "Elo ballari" deb atashda davom etishdi. Ular natijaviy Bredli-Terri ballarini Elo ballariga o'xshatish uchun miqyoslashdi. Miqyoslash ancha murakkab. Har bir ball 400 ga (Elo'da ishlatiladigan shkala) ko'paytiriladi va 1000 ga (boshlang'ich Elo bali) qo'shiladi. Keyin bu ball Llama-13b modeli 800 ballga ega bo'lishi uchun qayta miqyoslanadi. ↩
Chatbot Arena ommalashgani sari, uni aldashga urinishlar ham ko'payib bormoqda. Garchi hech kim menga reytingni aldashga uringanini tan olmagan bo'lsa-da, bir nechta model dasturchilari o'z raqobatchilari uni aldashga harakat qilishiga amin ekanliklarini aytishdi. ↩

OldingiSI-baholovchi

Keyingi

Xulosa