Til modellashtirish metrikalarini tushunish

Fundamental modellar til modellaridan kelib chiqqan. Ko'pgina fundamental modellar hali ham o'zlarining asosiy komponentlari sifatida til modellariga ega. Bunday modellar uchun til modeli komponentining samaradorligi odatda fundamental modelning keyingi dasturlardagi samaradorligi bilan yaxshi bog'liqdir (Liu va boshq., 2023). Shu sababli, til modellashtirish metrikalarini umumiy tushunish keyingi dasturlar samaradorligini anglashda ancha qo'l kelishi mumkin.1

1-bobda muhokama qilinganidek, til modellashtirish o'nlab yillar davomida mavjud bo'lib, Klod Shennonning 1951-yildagi "Prediction and Entropy of Printed English" nomli maqolasi orqali ommalashgan. Til modellarini ishlab chiqishni yo'naltirish uchun ishlatiladigan metrikalar o'shandan beri unchalik o'zgarmadi. Aksariyat avtoregressiv til modellari o'zaro entropiya yoki uning qarindoshi bo'lgan perplexity yordamida o'qitiladi. Maqolalar va model hisobotlarini o'qiyotganda, siz bir belgiga to'g'ri keladigan bitlar (bits-per-character, BPC) va bir baytga to'g'ri keladigan bitlar (bits-per-byte, BPB) atamalariga ham duch kelishingiz mumkin; ikkalasi ham o'zaro entropiyaning bir turidir.

Bu to'rtta metrika — o'zaro entropiya, perplexity, BPC va BPB — bir-biri bilan chambarchas bog'liq. Agar siz birining qiymatini bilsangiz, kerakli ma'lumotlar bilan qolgan uchtasini hisoblashingiz mumkin. Garchi men ularni til modellashtirish metrikalari deb atasam ham, ular tokenlar ketma-ketligini generatsiya qiladigan har qanday model, jumladan, matn bo'lmagan tokenlar uchun ham ishlatilishi mumkin.

Eslatma uchun, til modeli tillar haqidagi statistik ma'lumotlarni (biror tokenning berilgan kontekstda paydo bo'lish ehtimoli qanchalik ekanligi) o'zida kodlaydi. Statistik jihatdan, "Men __ ichishni yaxshi ko'raman" konteksti berilganda, keyingi so'z "ko'mir"dan ko'ra "choy" bo'lishi ehtimoli yuqoriroq. Model qanchalik ko'p statistik ma'lumotni o'zlashtira olsa, u keyingi tokenni prognoz qilishda shunchalik yaxshi bo'ladi.

ML tilida aytganda, til modeli o'zining o'qitish ma'lumotlari taqsimotini o'rganadi. Bu model qanchalik yaxshi o'rgansa, u o'qitish ma'lumotlarida keyin nima kelishini prognoz qilishda shunchalik yaxshi bo'ladi va uning o'qitishdagi o'zaro entropiyasi shunchalik past bo'ladi. Har qanday ML modelida bo'lgani kabi, sizni uning nafaqat o'qitish ma'lumotlaridagi, balki amaliyotdagi ma'lumotlaringizdagi samaradorligi ham qiziqtiradi. Umuman olganda, sizning ma'lumotlaringiz modelning o'qitish ma'lumotlariga qanchalik yaqin bo'lsa, model sizning ma'lumotlaringizda shunchalik yaxshi ishlay oladi.

Kitobning qolgan qismiga qaraganda, bu bo'limda matematika ko'proq. Agar bu sizga tushunarsiz tuyulsa, matematik qismini bemalol o'tkazib yuborishingiz va e'tiborni ushbu metrikalarni qanday talqin qilish haqidagi muhokamaga qaratishingiz mumkin. Hatto til modellarini o'qitmayotgan yoki finetuning qilmayotgan bo'lsangiz ham, ushbu metrikalarni tushunish ilovangiz uchun qaysi modellardan foydalanishni baholashda yordam beradi. Ushbu metrikalar, kitob davomida muhokama qilinganidek, ba'zi baholash va ma'lumotlarni takrorlanishdan tozalash (deduplication) texnikalari uchun vaqti-vaqti bilan ishlatilishi mumkin.

Entropiya

Entropiya biror token o'rtacha qancha axborot berishini o'lchaydi. Entropiya qanchalik yuqori bo'lsa, har bir token shunchalik ko'p axborot beradi va tokenni ifodalash uchun shunchalik ko'p bit kerak bo'ladi.2

Buni tasvirlash uchun oddiy bir misoldan foydalanamiz. Tasavvur qiling, siz 3-4-rasmda ko'rsatilganidek, kvadrat ichidagi pozitsiyalarni tasvirlash uchun bir til yaratmoqchisiz. Agar sizning tilingizda faqat ikkita token bo'lsa (3-4-rasmdagi (a) da ko'rsatilgan), har bir token sizga pozitsiyaning yuqori yoki pastda ekanligini ayta oladi. Faqat ikkita token bo'lgani uchun, ularni ifodalash uchun bir bit yetarli. Shuning uchun, bu tilning entropiyasi 1 ga teng.

3-4-rasm. Kvadrat ichidagi pozitsiyalarni tasvirlaydigan ikkita til.

3-4-rasm. Kvadrat ichidagi pozitsiyalarni tasvirlaydigan ikkita til. Chapdagi (a) tilga nisbatan, o'ngdagi (b) tokenlar ko'proq axborot beradi, lekin ularni ifodalash uchun ko'proq bit kerak bo'ladi.

Agar sizning tilingizda to'rtta token bo'lsa (3-4-rasmdagi (b) da ko'rsatilgan), har bir token sizga aniqroq pozitsiyani berishi mumkin: yuqori-chap, yuqori-o'ng, pastki-chap yoki pastki-o'ng. Biroq, endi to'rtta token bo'lgani uchun, ularni ifodalash uchun sizga ikki bit kerak bo'ladi. Bu tilning entropiyasi 2 ga teng. Bu til yuqori entropiyaga ega, chunki har bir token ko'proq axborot beradi, lekin har bir tokenni ifodalash uchun ko'proq bit talab etiladi.

Intuitiv ravishda, entropiya biror tilda keyin nima kelishini prognoz qilish qanchalik qiyin ekanligini o'lchaydi. Tilning entropiyasi qanchalik past bo'lsa (tilning bir tokeni qanchalik kam axborot bersa), o'sha til shunchalik prognozli bo'ladi. Oldingi misolimizda, faqat ikkita tokenli tilni to'rtta tokenli tilga qaraganda prognoz qilish osonroq (siz to'rtta ehtimoliy token o'rniga faqat ikkitasi orasidan prognoz qilishingiz kerak). Bu xuddi siz mening keyin nima deyishimni mukammal prognoz olsangiz, mening aytganlarim hech qanday yangi axborot bermasligiga o'xshaydi.

O'zaro entropiya

Biror ma'lumotlar to'plamida til modelini o'qitayotganingizda, maqsadingiz modelni ushbu o'qitish ma'lumotlarining taqsimotini o'rganishga majbur qilishdir. Boshqacha aytganda, maqsadingiz modelni o'qitish ma'lumotlarida keyin nima kelishini prognoz qilishga undashdir. Til modelining biror ma'lumotlar to'plamidagi o'zaro entropiyasi til modeli uchun ushbu ma'lumotlar to'plamida keyin nima kelishini prognoz qilish qanchalik qiyin ekanligini o'lchaydi.

Modelning o'qitish ma'lumotlaridagi o'zaro entropiyasi ikkita xususiyatga bog'liq:

  1. O'qitish ma'lumotlarining prognozliligi, bu o'qitish ma'lumotlarining entropiyasi bilan o'lchanadi.
  2. Til modeli tomonidan o'zlashtirilgan taqsimotning o'qitish ma'lumotlarining haqiqiy taqsimotidan qanchalik farq qilishi.

Entropiya va o'zaro entropiya bir xil matematik belgi — HH dan foydalanadi. Aytaylik, PP — o'qitish ma'lumotlarining haqiqiy taqsimoti, QQ esa til modeli tomonidan o'rganilgan taqsimot bo'lsin. Shunga ko'ra, quyidagilar o'rinli:

  • O'qitish ma'lumotlarining entropiyasi: H(P)H(P).
  • QQ ning PP ga nisbatan og'ishi Kullback-Leibler (KL) divergensiyasi yordamida o'lchanishi mumkin, bu matematik jihatdan quyidagicha ifodalanadi: DKL(PQ)D_{KL}(P || Q).
  • Modelning o'qitish ma'lumotlariga nisbatan o'zaro entropiyasi esa quyidagicha bo'ladi: H(P,Q)=H(P)+DKL(PQ)H(P, Q) = H(P) + D_{KL}(P || Q).

O'zaro entropiya simmetrik emas. QQ ning PP ga nisbatan o'zaro entropiyasi — H(P,Q)H(P, Q)PP ning QQ ga nisbatan o'zaro entropiyasidan — H(Q,P)H(Q, P) dan farq qiladi.

Til modeli o'qitish ma'lumotlariga nisbatan o'zaro entropiyasini minimallashtirish uchun o'qitiladi. Agar til modeli o'qitish ma'lumotlaridan mukammal o'rgansa, modelning o'zaro entropiyasi o'qitish ma'lumotlarining entropiyasi bilan aynan bir xil bo'ladi. Bunda QQ ning PP ga nisbatan KL divergensiyasi 0 ga teng bo'ladi. Modelning o'zaro entropiyasini uning o'qitish ma'lumotlari entropiyasiga yaqinlashishi (approksimatsiyasi) deb tasavvur qilishingiz mumkin.

Bir belgiga to'g'ri keladigan bitlar va bir baytga to'g'ri keladigan bitlar

Entropiya va o'zaro entropiyaning birliklaridan biri bu bitdir. Agar til modelining o'zaro entropiyasi 6 bit bo'lsa, bu til modeli har bir tokenni ifodalash uchun 6 bitga muhtojligini anglatadi.

Turli modellar turli xil tokenizatsiya usullariga ega bo'lgani uchun — masalan, bir model token sifatida so'zlardan foydalansa, boshqasi belgilardan foydalanadi — bir tokenga to'g'ri keladigan bitlar sonini modellar bo'yicha o'zaro taqqoslab bo'lmaydi. Ba'zilar buning o'rniga belgiga nisbatan bitlar (bits-per-character, BPC) sonidan foydalanadilar. Agar bir tokenga to'g'ri keladigan bitlar soni 6 bo'lsa va o'rtacha har bir token 2 ta belgidan iborat bo'lsa, BPC 6/2=36/2 = 3 bo'ladi.

BPC bilan bog'liq bir murakkablik turli xil belgilarni kodlash sxemalaridan kelib chiqadi. Masalan, ASCII bilan har bir belgi 7 bit yordamida kodlanadi, ammo UTF-8 bilan bir belgi 8 dan 32 bitgacha bo'lgan oraliqda kodlanishi mumkin. Standartlashtirilganroq metrika bir baytga to'g'ri keladigan bitlar (bits-per-byte, BPB) bo'ladi — bu til modeliga asl o'qitish ma'lumotlarining bir baytini ifodalash uchun kerak bo'lgan bitlar soni. Agar BPC 3 bo'lsa va har bir belgi 7 bit yoki bir baytning 7/87/8 qismi bo'lsa, u holda BPB 3/(78)=3.433 / (\frac{7}{8}) = 3.43 bo'ladi.

O'zaro entropiya bizga til modelining matnni siqishda qanchalik samarali bo'lishini aytib beradi. Agar til modelining BPB ko'rsatkichi 3.43 bo'lsa, ya'ni u har bir asl baytni (8 bit) 3.43 bit yordamida ifodalay olsa, bu til modeli asl o'qitish matnini uning asl hajmining yarmidan kamrog'igacha siqishi mumkin.

Perplexity

Perplexity — bu entropiya va o'zaro entropiyaning eksponensial ko'rinishidir. Perplexity ko'pincha PPL deb qisqartiriladi. Haqiqiy taqsimoti P bo'lgan ma'lumotlar to'plami berilganda, uning perplexity'si quyidagicha aniqlanadi:

PPL(P)=2H(P)PPL(P) = 2^{H(P)}

Bu ma'lumotlar to'plamidagi til modelining (o'rganilgan taqsimoti QQ bilan) perplexity'si esa quyidagicha aniqlanadi:

PPL(P,Q)=2H(P,Q)PPL(P, Q) = 2^{H(P, Q)}

Agar o'zaro entropiya model uchun keyingi tokenni prognoz qilish qanchalik qiyin ekanligini o'lchasa, perplexity keyingi tokenni prognoz qilishda u qanchalik noaniqlikka ega ekanligini o'lchaydi. Yuqoriroq noaniqlik keyingi token uchun ko'proq ehtimoliy variantlar mavjudligini anglatadi.

3-4 (b)-rasmdagi kabi, 4 ta pozitsiya tokenini mukammal kodlashga o'qitilgan til modelini ko'rib chiqaylik. Bu til modelining o'zaro entropiyasi 2 bit. Agar bu til modeli kvadratdagi pozitsiyani prognoz qilishga harakat qilsa, u 22=42^2 = 4 ta ehtimoliy variant orasidan tanlashi kerak. Shunday qilib, bu til modelining perplexity'si 4 ga teng.

Hozirgacha men entropiya va o'zaro entropiya birligi sifatida bitdan foydalanayotgan edim. Har bir bit 2 ta noyob qiymatni ifodalashi mumkin, shuning uchun oldingi perplexity tenglamasida asos 2 ga teng.

TensorFlow va PyTorch kabi ommabop ML freymvorklari entropiya va o'zaro entropiya birligi sifatida natdan (natural logarifm) foydalanadi. Nat asos sifatida e ni, ya'ni natural logarifm asosini ishlatadi.3 Agar siz birlik sifatida natdan foydalansangiz, perplexity ee ning eksponensial ko'rinishi bo'ladi:

PPL(P,Q)=eH(P,Q)PPL(P, Q) = e^{H(P, Q)}

Bit va nat atrofidagi chalkashliklar tufayli, ko'pchilik o'z til modellarining samaradorligi haqida hisobot berganda, o'zaro entropiya o'rniga perplexity'ni ma'lum qiladi.

Perplexity'ni talqin qilish va ishlatilish senariylari

Muhokama qilinganidek, o'zaro entropiya, perplexity, BPC va BPB — bular til modellarining prognozlash aniqligi o'lchovlarining bir turidir. Model matnni qanchalik prognoz qila olsa, ushbu metrikalar shunchalik past bo'ladi. Ushbu kitobda men standart til modellashtirish metrikasi sifatida perplexity'dan foydalanaman. Esingizda bo'lsin, model berilgan ma'lumotlar to'plamida keyin nima kelishini prognoz qilishda qanchalik ko'p noaniqlikka ega bo'lsa, perplexity shunchalik yuqori bo'ladi.

Perplexity uchun qanday qiymat yaxshi hisoblanishi ma'lumotlarning o'ziga va perplexity'ning aynan qanday hisoblanishiga, masalan, model qancha oldingi tokenlarga kirish imkoniga ega ekanligiga bog'liq. Quyida bir nechta umumiy qoidalar keltirilgan:

  • Ko'proq strukturalashgan ma'lumotlar kutilayotgan perplexity'ni pasaytiradi: Ko'proq strukturalashgan ma'lumotlar ko'proq prognozli bo'ladi. Masalan, HTML kodi kundalik matndan ko'ra ko'proq prognozli. Agar siz <head> kabi ochuvchi HTML tegini ko'rsangiz, yaqin atrofda yopuvchi </head> tegi bo'lishi kerakligini prognoz qilishingiz mumkin. Shuning uchun, modelning HTML kodidagi kutilayotgan perplexity'si uning kundalik matndagi kutilayotgan perplexity'sidan pastroq bo'lishi kerak.

  • Lug'at qanchalik katta bo'lsa, perplexity shunchalik yuqori bo'ladi: Intuitiv ravishda, ehtimoliy tokenlar qancha ko'p bo'lsa, model uchun keyingi tokenni prognoz qilish shunchalik qiyin bo'ladi. Masalan, modelning bolalar kitobidagi perplexity'si, ehtimol, xuddi shu modelning "Urush va Tinchlik" asaridagi perplexity'sidan pastroq bo'ladi. Bir xil ma'lumotlar to'plami uchun, aytaylik, ingliz tilida, belgiga asoslangan perplexity (keyingi belgini prognoz qilish) so'zga asoslangan perplexity'dan (keyingi so'zni prognoz qilish) pastroq bo'ladi, chunki ehtimoliy belgilar soni ehtimoliy so'zlar sonidan kamroq.

  • Kontekst uzunligi qanchalik uzun bo'lsa, perplexity shunchalik past bo'ladi: Model qanchalik ko'p kontekstga ega bo'lsa, u keyingi tokenni prognoz qilishda shunchalik kam noaniqlikka ega bo'ladi. 1951-yilda Klod Shennon o'z modelining o'zaro entropiyasini 10 tagacha oldingi tokenga asoslanib keyingi tokenni prognoz qilish orqali baholagan. Ushbu kitob yozilayotgan vaqtda, modelning perplexity'si odatda 500 dan 10 000 gacha oldingi tokenga asoslanib hisoblanishi mumkin va ehtimol undan ham ko'proq, bu modelning maksimal kontekst uzunligi bilan cheklanadi.

Ma'lumot uchun, perplexity qiymatlarining 3 yoki undan ham past bo'lishi odatiy hol emas. Agar faraziy bir tildagi barcha tokenlar bir xil yuz berish ehtimoliga ega bo'lsa, 3 ga teng perplexity bu modelning keyingi tokenni to'g'ri prognoz qilish ehtimoli 3 dan 1 ekanligini anglatadi. Modelning lug'ati 10 minglab va 100 minglab tartibda ekanligini hisobga olsak, bu ko'rsatkichlar aql bovar qilmas darajada.

Til modellarini o'qitishni yo'naltirishdan tashqari, perplexity SI muhandislik ish jarayonining ko'p qismlarida foydalidir. Birinchidan, perplexity model imkoniyatlarining yaxshi proksisidir. Agar model keyingi tokenni prognoz qilishda yomon bo'lsa, uning keyingi vazifalardagi samaradorligi ham, ehtimol, yomon bo'ladi. OpenAI'ning GPT-2 hisoboti shuni ko'rsatadiki, kattaroq modellar, ular ayni paytda qudratliroq modellar hamdir, bir qator ma'lumotlar to'plamlarida doimiy ravishda pastroq perplexity beradi (3-1-jadval). Afsuski, kompaniyalarning o'z modellari haqida tobora sirliroq bo'lish tendensiyasiga ergashib, ko'pchilik o'z modellarining perplexity'sini ma'lum qilishni to'xtatgan.

LAMBADA (PPL)LAMBADA (ACC)CBT-CN (ACC)CBT-NE (ACC)WikiText2 (PPL)PTB (PPL)enwiki8 (BPB)text8 (BPC)WikiText103 (PPL)IBW (PPL)
SOTA99.859.2385.782.339.1446.540.991.0818.321.8
117M35.1345.9987.6583.429.4165.851.161.1737.5075.20
345M15.6055.4892.3587.122.7647.331.011.0626.3755.72
762M10.8760.1293.4588.019.9340.310.971.0222.0544.575
1542M8.6363.2493.3089.0518.3435.760.930.9817.4842.16
3-1-jadval. Kattaroq GPT-2 modellari turli ma'lumotlar to'plamlarida doimiy ravishda pastroq perplexity beradi. Manba: "OpenAI", 2018.

Ogohlantirish

Perplexity SFT va RLHF kabi texnikalar yordamida yakuniy o'qitishdan o'tgan modellarni baholash uchun unchalik yaxshi proksi bo'lmasligi mumkin.4 Yakuniy o'qitish modellarga vazifalarni bajarishni o'rgatish haqidadir. Model vazifalarni bajarishda yaxshilanib borgani sari, u keyingi tokenlarni prognoz qilishda yomonlashishi mumkin. Til modelining perplexity'si odatda yakuniy o'qitishdan keyin ortadi. Ba'zi odamlar yakuniy o'qitish entropiyani "yiqitadi" (collapses entropy) deyishadi. Xuddi shunday, kvantlash (quantization) — modelning sonli aniqligini va u bilan birga xotiradagi izini (memory footprint) kamaytiradigan texnika — ham modelning perplexity'sini kutilmagan tarzda o'zgartirishi mumkin.5

Eslatma uchun, modelning biror matnga nisbatan perplexity'si bu model uchun ushbu matnni prognoz qilish qanchalik qiyin ekanligini o'lchaydi. Berilgan model uchun perplexity model o'qitish paytida ko'rgan va yodlab olgan matnlar uchun eng past bo'ladi. Shuning uchun, perplexity'dan biror matn modelning o'qitish ma'lumotlarida bo'lgan yoki bo'lmaganini aniqlash uchun foydalanish mumkin. Bu ma'lumotlar ifloslanishini (data contamination) aniqlash uchun foydalidir — agar modelning biror benchmark ma'lumotlaridagi perplexity'si past bo'lsa, bu benchmark ehtimol modelning o'qitish ma'lumotlariga kiritilgan, bu esa modelning ushbu benchmarkdagi samaradorligini kamroq ishonchli qiladi. Bundan, shuningdek, o'qitish ma'lumotlaridagi takrorlanishlarni olib tashlash uchun ham foydalanish mumkin: masalan, yangi ma'lumotlarni mavjud o'qitish ma'lumotlar to'plamiga faqat yangi ma'lumotlarning perplexity'si yuqori bo'lgandagina qo'shish.

Perplexity prognoz qilib bo'lmaydigan matnlar, masalan, g'ayrioddiy g'oyalarni ifodalovchi ("mening itim bo'sh vaqtlarida kvant fizikasidan dars beradi") yoki ma'nisiz ("uy mushuk bor ko'z") matnlar uchun eng yuqori bo'ladi. Shuning uchun, perplexity'dan g'ayritabiiy matnlarni aniqlash uchun foydalanish mumkin.

Perplexity va unga bog'liq metrikalar bizga asosdagi til modelining samaradorligini tushunishga yordam beradi, bu esa o'z navbatida modelning keyingi vazifalardagi samaradorligini tushunish uchun proksi bo'lib xizmat qiladi. Bobning qolgan qismida modelning keyingi vazifalardagi samaradorligini to'g'ridan-to'g'ri qanday o'lchash muhokama qilinadi.

Til modeli yordamida matnning perplexity'sini qanday hisoblash mumkin

Modelning biror matnga nisbatan perplexity'si model uchun o'sha matnni prognoz qilish qanchalik qiyin ekanligini o'lchaydi. XX til modeli va [x1,x2,,xn][x_1, x_2, \dots, x_n] tokenlar ketma-ketligi berilganda, XX ning bu ketma-ketlik uchun perplexity'si:

P(x1,x2,,xn)1n=(1P(x1,x2,,xn))1n=(i=1n1P(xix1,,xi1))1nP(x_1, x_2, \dots, x_n)^{-\frac{1}{n}} = \left( \frac{1}{P(x_1, x_2, \dots, x_n)} \right)^{\frac{1}{n}} = \left( \prod_{i=1}^{n} \frac{1}{P(x_i | x_1, \dots, x_{i-1})} \right)^{\frac{1}{n}}

bu yerda P(xix1,,xi1)P(x_i | x_1, \dots, x_{i-1}) XX ning oldingi x1,,xi1x_1, \dots, x_{i-1} tokenlari berilganda xix_i tokeniga belgilaydigan ehtimolligini bildiradi.

Perplexity'ni hisoblash uchun siz til modelining har bir keyingi token uchun belgilaydigan ehtimolliklariga (yoki logprobs'lariga) kirish huquqiga ega bo'lishingiz kerak. Afsuski, 2-bobda muhokama qilinganidek, hamma tijoriy modellar ham o'z modellarining logprobs'larini oshkor qilmaydi.

Izohlar

  1. Garchi kuchli korrelyatsiya mavjud bo'lsa-da, til modellashtirish samaradorligi keyingi dasturlar samaradorligini to'liq tushuntirib bera olmaydi. Bu faol tadqiqot sohasi.

  2. 1-bobda muhokama qilinganidek, token belgi, so'z yoki so'zning bir qismi bo'lishi mumkin. Klod Shennon 1951-yilda entropiyani taqdim etganida, u ishlagan tokenlar belgilar edi. Mana, entropiya uning o'z so'zlari bilan: "Entropiya — bu ma'lum ma'noda, tildagi matnning har bir harfi uchun o'rtacha qancha axborot ishlab chiqarilishini o'lchaydigan statistik parametr. Agar til eng samarali usulda ikkilik raqamlarga (0 yoki 1) tarjima qilinsa, entropiya asl tilning har bir harfiga talab qilinadigan o'rtacha ikkilik raqamlar sonidir."

  3. Ko'pchilikning log asos 2 dan ko'ra natural logarifmni afzal ko'rishining bir sababi shundaki, natural logarifm uning matematikasini osonlashtiradigan ma'lum xususiyatlarga ega. Masalan, natural logarifm ln(x) ning hosilasi 1/x ga teng.

  4. Agar siz SFT (nazoratli finetuning) va RLHF (inson fikr-mulohazalari asosida mustahkamlovchi o'rganish) nima ekanliklariga tushunganingizga ishonchingiz komil bo'lmasa, 2-bobga qayta murojaat qiling.

  5. Kvantlash (Quantization) 7-bobda muhokama qilinadi.