Чӣ тавр моделҳои зеҳни сунъиро арзёбӣ кардан мумкин аст

Чӣ тавр моделҳои зеҳни сунъиро арзёбӣ кардан мумкин аст

Ҷавоби кӯтоҳ: Муайян кунед, ки "хуб" барои ҳолати истифодаи шумо чӣ гуна аст, сипас бо дастурҳои намояндагӣ, версияшуда ва ҳолатҳои канорӣ санҷед. Метрҳои автоматикунонидашударо бо баҳодиҳии рубрикаи инсонӣ, дар баробари санҷишҳои бехатарии муқобил ва воридкунии фаврӣ ҷуфт кунед. Агар маҳдудиятҳои арзиш ё таъхир ҳатмӣ шаванд, моделҳоро аз рӯи муваффақияти вазифа барои як фунти сарфшуда ва вақти посухи p95/p99 муқоиса кунед.

Хулосаҳои асосӣ:

Ҳисоботдиҳӣ : Соҳибони тозаро таъин кунед, гузоришҳои версияҳоро нигоҳ доред ва пас аз ҳама гуна тағирот дар дархост ё модел арзёбиҳоро дубора иҷро кунед.

Шаффофият : Пеш аз оғози ҷамъоварии холҳо, меъёрҳои муваффақият, маҳдудиятҳо ва хароҷоти нокомиро нависед.

Қобилияти аудит : Нигоҳ доштани маҷмӯаҳои санҷишии такроршаванда, маҷмӯи додаҳои нишонгузорӣшуда ва метрикаҳои таъхири p95/p99.

Қобили рақобат : Барои натиҷаҳои баҳсбарангез аз рубрикаҳои баррасии инсонӣ ва роҳи муайяни шикоят истифода баред.

Муқовимат ба истифодаи нодуруст : Дастаи сурх ворид кардани дархост, мавзӯъҳои ҳассос ва радди аз ҳад зиёд барои ҳифзи корбарон.

Агар шумо моделеро барои маҳсулот, лоиҳаи тадқиқотӣ ё ҳатто асбоби дохилӣ интихоб кунед, шумо наметавонед танҳо "ин оқилона садо медиҳад" гуфта, онро фиристед (нигаред ба дастури арзёбии OpenAI ва NIST AI RMF 1.0 ). Ҳамин тавр шумо бо чатбот мешавед, ки бо итминон мефаҳмонад, ки чӣ тавр чангакро дар печи микроволновка гарм кардан мумкин аст. 😬

Чӣ тавр моделҳои зеҳни сунъиро инфографика арзёбӣ кардан мумкин аст

Мақолаҳое, ки шумо метавонед баъд аз ин хонед, инҳоянд:

🔗 Ояндаи зеҳни сунъӣ: тамоюлҳое, ки даҳсолаи ояндаро ташаккул медиҳанд.
Навовариҳои асосӣ, таъсири ҷойҳои корӣ ва ахлоқ барои мушоҳида.

🔗 Моделҳои бунёдӣ дар зеҳни сунъии тавлидӣ барои шурӯъкунандагон шарҳ дода шудаанд.
Бифаҳмед, ки онҳо чистанд, то чӣ андоза омӯзонида шудаанд ва чаро онҳо муҳиманд.

🔗 Чӣ гуна зеҳни сунъӣ ба муҳити зист ва истифодаи энергия таъсир мерасонад.
Партовҳо, талабот ба нерӯи барқ ​​ва роҳҳои кам кардани изи он омӯхта мешаванд.

🔗 Чӣ гуна боло бурдани зеҳни сунъӣ имрӯз барои тасвирҳои тезтар кор мекунад.
Бубинед, ки чӣ гуна моделҳо тафсилот илова мекунанд, садоро тоза мекунанд ва ба таври тоза калон мекунанд.


1) Таърифи "хуб" (аз вазъият вобаста аст ва ин хуб аст) 🎯

Пеш аз гузаронидани ягон арзёбӣ, муайян кунед, ки муваффақият чӣ гуна аст. Дар акси ҳол, шумо ҳама чизро чен мекунед ва ҳеҷ чиз намеомӯзед. Ин мисли овардани лентаи ченкунӣ барои доварӣ дар мусобиқаи торт аст. Албатта, шумо рақамҳоро мегиред, аммо онҳо ба шумо чизеро намегӯянд 😅

Шарҳ диҳед:

  • Ҳадафи корбар : ҷамъбаст, ҷустуҷӯ, навиштан, асосноккунӣ, истихроҷи далелҳо

  • Арзиши нокомӣ : тавсияи нодурусти филм хандаовар аст; дастури нодурусти тиббӣ... хандаовар нест (чаҳорчӯбаи хатар: NIST AI RMF 1.0 ).

  • Муҳити корӣ : дар дастгоҳ, дар абр, дар паси девори оташ, дар муҳити танзимшаванда

  • Маҳдудиятҳои асосӣ : таъхир, арзиши дархост, махфият, фаҳмоӣ, дастгирии бисёрзабона, назорати оҳанг

Моделе, ки дар як кор "беҳтарин" аст, метавонад дар кори дигар фоҷиа бошад. Ин зиддият нест, ин воқеият аст. 🙂


2) Чаҳорчӯбаи мустаҳками арзёбии модели зеҳни сунъӣ чӣ гуна аст 🧰

Бале, ин қисматест, ки одамон аз он мегузаранд. Онҳо як нишондиҳандаро мегиранд, онро як маротиба иҷро мекунанд ва онро дар як рӯз меноманд. Чаҳорчӯбаи мустаҳками арзёбӣ якчанд хусусиятҳои доимӣ дорад (мисолҳои амалии абзор: OpenAI Evals / OpenAI evals guide ):

  • Такроршаванда - шумо метавонед онро ҳафтаи оянда дубора иҷро кунед ва ба муқоисаҳо эътимод кунед

  • Намоянда - он корбарон ва вазифаҳои воқеии шуморо инъикос мекунад (на танҳо чизҳои майда-чуйда)

  • Бисёрқабата - метрикаҳои автоматӣ + баррасии инсонӣ + санҷишҳои муқобилро дар бар мегирад

  • Амалӣшаванда - натиҷаҳо ба шумо мегӯянд, ки чӣ чизро ислоҳ кардан лозим аст, на танҳо "хол паст шуд".

  • Ба тағйирот тобовар - аз «омӯзиш ба санҷиш» ё ихроҷи тасодуфӣ худдорӣ мекунад

  • Огоҳӣ аз хароҷот - худи арзёбӣ набояд шуморо муфлис кунад (агар шумо дардро дӯст надоред)

Агар арзёбии шумо аз гуфтани як ҳамдастаи шубҳаноки "Хуб, аммо инро ба истеҳсолот мутобиқ кунед" гузарад, пас он ҳанӯз ба анҷом нарасидааст. Ин санҷиши вибратсия аст.


3) Чӣ тавр моделҳои зеҳни сунъиро бо истифода аз қисмҳои истифодаӣ арзёбӣ кардан мумкин аст 🍰

Ин як ҳиллаест, ки вақти зиёдро сарфа мекунад: ҳолати истифодаро ба қисмҳо тақсим кунед .

Ба ҷои «арзёбии модел», ин корро кунед:

  • Фаҳмиши ният (оё он чизеро, ки корбар мехоҳад, ба даст меорад)

  • Гирифтан ё истифодаи контекст (оё он маълумоти додашударо дуруст истифода мебарад)

  • Мулоҳизакорӣ/вазифаҳои бисёрзинагӣ (оё он дар тамоми марҳилаҳо мувофиқ боқӣ мемонад)

  • Форматкунӣ ва сохтор (оё он дастурҳоро риоя мекунад)

  • Ҳамоҳангсозии бехатарӣ ва сиёсат (оё он аз мундариҷаи ноамн пешгирӣ мекунад; нигаред ба NIST AI RMF 1.0 )

  • Оҳанг ва овози бренд (оё он тавре садо медиҳад, ки шумо мехоҳед садо диҳад)

Ин "Чӣ гуна моделҳои зеҳни сунъиро арзёбӣ кардан мумкин аст"-ро камтар ба як имтиҳони бузург ва бештар ба маҷмӯи викторинаҳои мақсаднок монанд мекунад. Викторинаҳо асабоваранд, аммо идорашавандаанд. 😄


4) Асосҳои арзёбии офлайнӣ - маҷмӯаҳои санҷишӣ, тамғакоғазҳо ва тафсилоти нохушоянде, ки муҳиманд 📦

Арзёбии офлайнӣ ҷоест, ки шумо пеш аз ламс кардани корбарон ба чизе санҷишҳои назоратшавандаро анҷом медиҳед (намунаҳои ҷараёни корӣ: OpenAI Evals ).

Маҷмӯаи санҷишҳоеро созед ё ҷамъ кунед, ки воқеан аз они шумост

Маҷмӯи хуби санҷишӣ одатан инҳоро дар бар мегирад:

  • Намунаҳои тиллоӣ : натиҷаҳои беҳтарине, ки шумо бо ифтихор мефиристед

  • Ҳолатҳои канорӣ : дастурҳои норавшан, вурудҳои бетартиб, форматкунии ғайричашмдошт

  • Зондҳои ҳолати нокомӣ : сигналҳое, ки галлютсинатсияҳо ё посухҳои ноамнро ба вуҷуд меоранд (чаҳорчӯбаи санҷиши хатар: NIST AI RMF 1.0 )

  • Фарогирии гуногунрангӣ : сатҳҳои гуногуни маҳорати корбарон, лаҳҷаҳо, забонҳо, соҳаҳо

Агар шумо танҳо дар сатрҳои "тоза" санҷиш кунед, модел аҷиб ба назар мерасад. Сипас корбарони шумо бо хатогиҳои чопӣ, нимҷумлаҳо ва энергияи клики хашмгин пайдо мешаванд. Хуш омадед ба воқеият.

Интихоби нишонгузорӣ (яъне: сатҳҳои сахтгирӣ)

Шумо метавонед натиҷаҳои зеринро номгузорӣ кунед:

  • Бинарӣ : гузаштан/ноком шудан (зуд, сахт)

  • Рақами тартибӣ : холҳои сифатӣ аз 1 то 5 (нусхаҳо, субъективӣ)

  • Хусусиятҳои гуногун : дақиқӣ, пуррагӣ, оҳанг, истифодаи иқтибос ва ғайра (беҳтарин, сусттар)

Хусусиятҳои гуногун барои бисёр дастаҳо нуқтаи беҳтарин аст. Ин мисли чашидани хӯрок ва баҳодиҳии шӯрӣ аз сохтор алоҳида аст. Дар акси ҳол, шумо танҳо "хуб" мегӯед ва китф дарҳам мекашед.


5) Метрикаҳое, ки дурӯғ намегӯянд - ва метрикаҳое, ки то андозае дурӯғ мегӯянд 📊😅

Метрикаҳо арзишманданд... аммо онҳо инчунин метавонанд бомбаи дурахшон бошанд. Дурахшон, дар ҳама ҷо ва тоза карданашон душвор аст.

Оилаҳои метрикии маъмулӣ

  • Дақиқӣ / мувофиқати дақиқ : барои истихроҷ, таснифот ва вазифаҳои сохторӣ аъло аст

  • F1 / дақиқӣ / хотиррасонӣ : муфид будан ҳангоми гум кардани чизе аз садои иловагӣ бадтар аст (таърифҳо: scikit-learn precision/recall/F-score )

  • Ҳампӯшии услуби BLEU / ROUGE : барои вазифаҳои ҷамъбастӣ хуб аст, аксар вақт гумроҳкунанда аст (метрикаҳои аслӣ: BLEU ва ROUGE )

  • Монандии ҷойгиркунӣ : барои мувофиқати семантикӣ муфид аст, метавонад ҷавобҳои нодуруст, вале монандро мукофот диҳад

  • Сатҳи муваффақияти вазифа : стандарти тиллоии "оё корбар он чизеро, ки ба ӯ лозим буд, гирифт" вақте ки хуб муайян карда мешавад

  • Риояи маҳдудият : формат, дарозӣ, эътибори JSON ва риояи схемаро риоя мекунад

Нуктаи асосӣ

Агар вазифаи шумо кушода бошад (навиштан, мулоҳизакорӣ, сӯҳбати дастгирӣ), метрикаҳои якрақамӣ метавонанд... ноустувор бошанд. Бемаънӣ нест, танҳо ноустувор. Андозагирии эҷодкорӣ бо хаткаш имконпазир аст, аммо шумо ин корро беақлона ҳис мекунед. (Ҳамчунин, эҳтимол, шумо чашматонро берун мекунед.)

Пас: аз метрикаҳо истифода баред, аммо онҳоро ба баррасии инсонӣ ва натиҷаҳои воқеии вазифаҳо пайваст кунед (як мисоли муҳокимаи арзёбии LLM + огоҳиҳо: G-Eval ).


6) Ҷадвали муқоисавӣ - вариантҳои беҳтарини арзёбӣ (бо хусусиятҳои аҷиб, зеро зиндагӣ хусусиятҳои аҷибе дорад) 🧾✨

Ин аст менюи амалии равишҳои арзёбӣ. Омехта ва мувофиқ кунед. Аксари дастаҳо ин корро мекунанд.

Асбоб / Усул Шунавандагон Нарх Чаро он кор мекунад
Маҷмӯи озмоишии фаврии дастӣ сохташуда Маҳсулот + муҳандисӣ $ Хеле ҳадафмандона, регрессияҳоро зуд сабт мекунад - аммо шумо бояд онро абадан нигоҳ доред 🙃 (асбобҳои ибтидоӣ: OpenAI Evals )
Панели баҳодиҳии рубрикаи инсонӣ Гурӯҳҳое, ки метавонанд баррасикунандагонро сарфа кунанд $$ Беҳтарин барои оҳанг, нозукӣ, "оё инсон инро қабул мекунад", бесарусомонии ночиз вобаста ба баррасикунандагон
LLM ҳамчун довар (бо рубрикаҳо) Ҳалқаҳои такрории зуд $-$$ Зуд ва миқёспазир, аммо метавонад таассубро мерос гирад ва баъзан вибратсияро баҳо диҳад, на далелҳо (таҳқиқот + масъалаҳои маълуми таассуб: G-Eval )
Спринти дастаҷамъонаи рақиб бо дастаи сурх Бехатарӣ + мутобиқат $$ Усулҳои нокомии шадид, бахусус тазриқи фаврӣ - мисли санҷиши стресс дар толори варзишӣ эҳсос мешавад (шарҳи таҳдид: Тазриқи фаврии OWASP LLM01 / OWASP Top 10 барои барномаҳои LLM )
Тавлиди озмоиши синтетикӣ Дастаҳои сабуки маълумот $ Фарогирии аъло, аммо дастурҳои синтетикӣ метавонанд хеле тозаву озода ва хеле боадаб бошанд... корбарон боадаб нестанд
Санҷиши A/B бо корбарони воқеӣ Маҳсулоти пухташуда $$$ Сигнали равшантарин - инчунин стресси аз ҳама бештар аз ҷиҳати эмотсионалӣ ҳангоми тағйирёбии метрика (дастури амалии классикӣ: Коҳави ва дигарон, "Таҷрибаҳои назоратшаванда дар веб" )
Арзёбии дар асоси бозёфт (санҷишҳои RAG) Барномаҳои ҷустуҷӯ + сифати кафолат $$ Андозагирӣ «аз контекст дуруст истифода мебарад», афзоиши холҳои галлюцинатсияро коҳиш медиҳад (Шарҳи арзёбии RAG: Арзёбии RAG: Тадқиқот )
Мониторинг + ошкоркунии дрейф Системаҳои истеҳсолӣ $$-$$$ Бо мурури замон пастравиро дар бар мегирад - то он рӯзе, ки шуморо наҷот медиҳад, бепарво 😬 (шарҳи дрифт: Тадқиқоти дрифти консептуалӣ (PMC) )

Дар хотир доред, ки нархҳо қасдан пастанд. Онҳо аз миқёс, таҷҳизот ва шумораи вохӯриҳое, ки шумо тасодуфан ташкил мекунед, вобастаанд.


7) Арзёбии инсонӣ - силоҳи махфие, ки одамон онро кам маблағгузорӣ мекунанд 👀🧑⚖️

Агар шумо танҳо арзёбии автоматиро анҷом диҳед, шумо инҳоро аз даст медиҳед:

  • Номувофиқатии оҳанг ("Чаро ин қадар кинаовар аст")

  • Хатогиҳои нозуки воқеӣ, ки равон ба назар мерасанд

  • Оқибатҳои зараровар, стереотипҳо ё ибораҳои нороҳат (чорчӯбаи хатар + таассуб: NIST AI RMF 1.0 )

  • Нокомиҳои риояи дастурҳо, ки то ҳол "оқилона" ба назар мерасанд

Рубрикаҳоро мушаххас кунед (вагарна баррасикунандагон озодона кор мекунанд)

Рубрикаи бад: "Муфидӣ"
Рубрикаи беҳтар:

  • Дурустӣ : бо назардошти дархост + контекст, аз ҷиҳати воқеӣ дақиқ аст

  • Пуррагӣ : нуктаҳои заруриро бе ягон шитоб фаро мегирад

  • Равшанӣ : хондашаванда, сохторӣ, нофаҳмиҳои ҳадди ақал

  • Сиёсат/бехатарӣ : аз мундариҷаи маҳдуд канорагирӣ мекунад, радди корро хуб идора мекунад (чаҳорчӯбаи бехатарӣ: NIST AI RMF 1.0 )

  • Услуб : бо овоз, оҳанг ва сатҳи хониш мувофиқат мекунад

  • Садоқат : манбаъҳо ё иддаоҳоеро, ки дастгирӣ намешаванд, ихтироъ намекунад

Ҳамчунин, баъзан санҷишҳои байнибаҳодиҳандагонро анҷом диҳед. Агар ду баррасикунанда пайваста бо ҳам ихтилоф дошта бошанд, ин "мушкили одамон" нест, балки мушкили рубрикӣ аст. Одатан (асосҳои эътимоднокии байнибаҳодиҳандагон: МакХью дар бораи каппаи Коэн ).


8) Чӣ тавр моделҳои зеҳни сунъиро аз ҷиҳати бехатарӣ, устуворӣ ва "уф, корбарон" арзёбӣ кардан мумкин аст 🧯🧪

Ин қисмест, ки шумо пеш аз оғози кор анҷом медиҳед - ва сипас идома диҳед, зеро интернет ҳеҷ гоҳ хоб намекунад.

Санҷишҳои устуворӣ, ки бояд дар бар гиранд

  • Хатогиҳои чопӣ, жаргон, грамматикаи вайроншуда

  • Супоришҳои хеле дароз ва супоришҳои хеле кӯтоҳ

  • Дастурҳои мухолиф ("кӯтоҳ бошанд, аммо ҳар як ҷузъиётро дар бар гиранд")

  • Сӯҳбатҳои бисёрҷанба, ки дар онҳо корбарон ҳадафҳоро иваз мекунанд

  • Кӯшишҳои фаврии воридкунӣ ("қоидаҳои қаблиро нодида гиред...") (тафсилоти таҳдид: OWASP LLM01 Ирсоли фаврӣ )

  • Мавзӯъҳои ҳассосе, ки радди бодиққатро талаб мекунанд (чаҳорчӯбаи хатар/бехатарӣ: NIST AI RMF 1.0 )

Арзёбии бехатарӣ на танҳо "оё он рад мекунад" аст

Модели хуб бояд:

  • Дархостҳои ноамнро бо возеҳ ва оромона рад кунед (чорчӯбаи роҳнамоӣ: NIST AI RMF 1.0 )

  • Дар ҳолати зарурӣ алтернативаҳои бехатартарро пешниҳод кунед

  • Аз рад кардани пурсишҳои безарар (ҷавобҳои бардурӯғи мусбат) худдорӣ кунед

  • Дархостҳои норавшанро бо саволҳои равшанкунанда (дар ҳолати иҷозат) баррасӣ кунед

Радди аз ҳад зиёд як мушкили воқеии маҳсулот аст. Истифодабарандагон намехоҳанд, ки бо онҳо мисли гоблинҳои шубҳанок муносибат кунанд. 🧌 (Ҳатто агар онҳо гоблинҳои шубҳанок бошанд ҳам.)


9) Арзиш, таъхир ва воқеияти амалиётӣ - арзёбиеро, ки ҳама фаромӯш мекунанд 💸⏱️

Модел метавонад "аҷиб" бошад ва агар он суст, гарон ё аз ҷиҳати амалиётӣ нозук бошад, барои шумо хато бошад.

Баҳогузорӣ кунед:

  • Тақсимоти таъхир (на танҳо миёна - p95 ва p99 муҳиманд) (чаро фоизҳо муҳиманд: Дафтари кории Google SRE оид ба мониторинг )

  • Арзиши як вазифаи муваффақ (на арзиши як токен дар алоҳидагӣ)

  • Устуворӣ таҳти сарборӣ (тайм-аутҳо, маҳдудиятҳои суръат, ҷаҳишҳои ғайримуқаррарӣ)

  • Асбоб эътимоднокиро даъват мекунад (агар он функсияҳоро истифода барад, оё он кор мекунад)

  • Тамоюлҳои дарозии баромад (баъзе моделҳо бетартибӣ мекунанд ва бетартибӣ пулро талаб мекунад)

Модели каме бадтар ва ду баробар тезтар метавонад дар амал пирӯз шавад. Ин возеҳ ба назар мерасад, аммо одамон онро нодида мегиранд. Мисли харидани мошини варзишӣ барои хариди мағоза ва сипас шикоят кардан аз фазои бағоҷ.


10) Ҷараёни оддии корӣ аз аввал то охир, ки шумо метавонед нусхабардорӣ (ва танзим) кунед 🔁✅

Ин аст ҷараёни амалӣ барои " Чӣ гуна арзёбии моделҳои зеҳни сунъӣ бидуни дом афтодан дар таҷрибаҳои беохир":

  1. Муваффақиятро муайян кунед : вазифа, маҳдудиятҳо, хароҷоти нокомӣ

  2. Маҷмӯи хурди санҷишии "аслӣ"-ро эҷод кунед : 50-200 мисол, ки истифодаи воқеиро инъикос мекунанд

  3. Маҷмӯаҳои канорӣ ва муқобилро илова кунед : кӯшишҳои воридкунӣ, дастурҳои норавшан, зондҳои бехатарӣ (синфи воридкунии фаврӣ: OWASP LLM01 )

  4. Санҷишҳои автоматиро иҷро кунед : форматкунӣ, эътибори JSON, дурустии асосӣ, дар ҷое ки имконпазир аст

  5. Баррасии инсонӣ : натиҷаҳои намунавӣ дар байни категорияҳо, бо рубрика баҳогузорӣ кунед

  6. Муқоисаҳои муқоисашаванда : сифат ва арзиш ва таъхир ва бехатарӣ

  7. Озмоиши озмоишӣ дар нашри маҳдуд : озмоишҳои A/B ё ҷорӣ намудани марҳилавӣ (дастури санҷиши A/B: Коҳави ва дигарон. )

  8. Монитор дар истеҳсолот : дрифт, регрессияҳо, ҳалқаҳои фикру мулоҳизаҳои корбарон (шарҳи дрифт: Тадқиқоти дрифти консептуалӣ (PMC) )

  9. Итератсия : дастурҳои навсозӣ, барқароркунӣ, танзими дақиқ, деворҳои муҳофизатӣ ва сипас аз нав иҷро кардани eval (намунаҳои такрории арзёбӣ: дастури баҳодиҳии OpenAI )

Гузоришҳои версияшударо нигоҳ доред. На аз он сабаб, ки шавқовар аст, балки аз он сабаб, ки дар оянда - шумо ҳангоми дар даст як пиёла қаҳва доштан ва ғур-ғур кардани "чӣ тағйир ёфт..." аз шумо ташаккур хоҳед гуфт ☕🙂


11) Хатоҳои маъмулӣ (яъне: роҳҳое, ки одамон тасодуфан худро фиреб медиҳанд) 🪤

  • Омӯзиш барои санҷиш : шумо дастурҳоро то он даме, ки нишондиҳанда хуб ба назар расад, оптимизатсия мекунед, аммо корбарон азият мекашанд

  • Маълумоти баҳодиҳии ихроҷшуда : дастурҳои санҷиш дар омӯзиш ё маълумоти танзимкунӣ пайдо мешаванд (уфс)

  • Ибодати ягонаи метрикӣ : пайгирии як хол, ки арзиши корбарро инъикос намекунад

  • Нодида гирифтани тағйироти тақсимот : рафтори корбар тағйир меёбад ва модели шумо оҳиста-оҳиста паст мешавад (чаҳорчӯбаи хатари истеҳсолот: Тадқиқоти дрейфи консепсия (PMC) )

  • Аз ҳад зиёд индексатсия кардани "оқилонагӣ" : тафаккури оқилона муҳим нест, ки он форматкуниро вайрон кунад ё далелҳоро ихтироъ кунад

  • Сифати радкуниро санҷида наметавонам : "Не" метавонад дуруст бошад, аммо UX-и бад ҳоло ҳам аст

Ҳамчунин, аз демоҳо эҳтиёт шавед. Демоҳо ба трейлерҳои филм монанданд. Онҳо лаҳзаҳои муҳимро нишон медиҳанд, қисмҳои сустро пинҳон мекунанд ва баъзан бо мусиқии драмавӣ ҳамроҳ мешаванд. 🎬


12) Хулосаи ниҳоӣ дар бораи чӣ гуна арзёбии моделҳои зеҳни сунъӣ 🧠✨

Арзёбии моделҳои зеҳни сунъӣ як хол нест, балки як хӯроки мутавозин аст. Ба шумо сафеда (дурустӣ), сабзавот (бехатарӣ), карбогидратҳо (суръат ва арзиш) ва бале, баъзан шириниҳо (оҳанг ва лаззат) лозиманд 🍲🍰 (чаҳорчӯбаи хатар: NIST AI RMF 1.0 )

Агар шумо чизи дигареро дар хотир надоред:

  • Муайян кунед, ки "хуб" барои ҳолати истифодаи шумо чӣ маъно дорад

  • На танҳо меъёрҳои машҳур, балки маҷмӯи санҷишҳои намояндагиро низ истифода баред

  • Метрикаҳои автоматӣ бо баррасии рубрикаи инсонӣ якҷоя кунед

  • Устуворӣ ва бехатарии санҷишҳо, ба монанди корбарон, мухолифанд (зеро баъзан... онҳо чунинанд) (синфи тазриқи фаврӣ: OWASP LLM01 )

  • Арзиш ва таъхирро дар арзёбӣ дохил кунед, на ҳамчун як фикри баъдӣ (чаро фоизҳо муҳиманд: Google SRE Workbook )

  • Мониторинг пас аз ба кор андохтан - моделҳо ҳаракат мекунанд, барномаҳо таҳаввул меёбанд, одамон эҷодкор мешаванд (шарҳи мухтасари ҳаракат: Тадқиқоти дрейфи консептуалӣ (PMC) )

Ин аст, ки чӣ тавр моделҳои зеҳни сунъиро ба тарзе арзёбӣ кардан мумкин аст, ки вақте маҳсулоти шумо фаъол аст ва одамон корҳои пешгӯинашавандаро бо одамони дигар анҷом медиҳанд, ин ҳолат боқӣ мемонад. Ки ҳамеша чунин аст. 🙂

Саволҳои зиёд такрормешуда

Қадами аввал дар арзёбии моделҳои зеҳни сунъӣ барои маҳсулоти воқеӣ кадом аст?

Бо муайян кардани маънои "хуб" барои ҳолати мушаххаси истифодаи шумо оғоз кунед. Ҳадафи корбар, чӣ гуна нокомиҳо ба шумо зарар мерасонанд (хатари кам ва хатари баланд) ва дар куҷо кор кардани модел (абр, дар дастгоҳ, муҳити танзимшаванда)-ро шарҳ диҳед. Сипас маҳдудиятҳои сахтро ба монанди таъхир, арзиш, махфият ва назорати оҳанг номбар кунед. Бе ин асос, шумо бисёр чизҳоро чен мекунед ва ҳоло ҳам қарори нодуруст қабул мекунед.

Чӣ тавр ман метавонам маҷмӯи санҷишҳоеро созам, ки воқеан корбарони маро инъикос кунад?

Маҷмӯи санҷишҳоеро созед, ки воқеан аз они шумост, на танҳо як меъёри оммавӣ. Мисолҳои тиллоие, ки шумо бо ифтихор мефиристед, инчунин дастурҳои пурғавғо ва ғайриоддиро бо хатогиҳои чопӣ, нимҷумлаҳо ва дархостҳои норавшан дохил кунед. Ҳолатҳои канорӣ ва санҷишҳои ҳолати нокомиро илова кунед, ки галлютсинатсияҳо ё посухҳои ноамнро ба вуҷуд меоранд. Гуногунии сатҳи маҳорат, лаҳҷаҳо, забонҳо ва соҳаҳоро фаро гиред, то натиҷаҳо дар истеҳсолот вайрон нашаванд.

Кадом метрикаҳоро бояд истифода кунам ва кадоме аз онҳо метавонад гумроҳкунанда бошад?

Метрикаҳоро бо намуди вазифа мувофиқ кунед. Мувофиқати дақиқ ва дақиқӣ барои истихроҷ ва натиҷаҳои сохторӣ хуб кор мекунад, дар ҳоле ки дақиқӣ/ёдраскунӣ ва F1 ҳангоми аз даст додани чизе аз садои иловагӣ бадтар кӯмак мекунанд. Метрикаҳои такрорӣ ба монанди BLEU/ROUGE метавонанд барои вазифаҳои кушода хато кунанд ва монандӣ метавонад ҷавобҳои "нодуруст, вале монанд"-ро мукофот диҳад. Барои навиштан, дастгирӣ ё мулоҳизакорӣ, метрикаҳоро бо баррасии инсонӣ ва сатҳи муваффақияти вазифаҳо якҷоя кунед.

Чӣ гуна бояд арзёбиҳоро сохтор диҳам, то онҳо такроршаванда ва сатҳи истеҳсолӣ бошанд?

Чаҳорчӯбаи мустаҳками арзёбӣ такроршаванда, намояндагӣ, бисёрқабата ва амалӣ аст. Санҷишҳои автоматӣ (формат, эътибори JSON, дурустии асосӣ)-ро бо баҳодиҳии рубрикаи инсонӣ ва санҷишҳои муқобил муттаҳид кунед. Онро бо роҳи пешгирӣ аз ихроҷ ва "омӯзиш ба санҷиш" аз тағйирот муҳофизат кунед. Арзиши арзёбӣро огоҳ нигоҳ доред, то шумо онро зуд-зуд, на танҳо як маротиба пеш аз оғоз, такрор кунед.

Роҳи беҳтарини арзёбии инсонӣ кадом аст, бе он ки он ба бесарусомонӣ табдил ёбад?

Аз рубрикаи мушаххас истифода баред, то баррасикунандагон озодона рафтор накунанд. Хусусиятҳоро ба монанди дурустӣ, пуррагӣ, равшанӣ, бехатарӣ/коркарди сиёсат, услуб/мутобиқати овоз ва садоқат (на бофтани иддаоҳо ё манбаъҳо) баҳо диҳед. Ба таври даврӣ созишномаи байни баҳодиҳандагонро тафтиш кунед; агар баррасикунандагон пайваста бо ҳам розӣ набошанд, рубрика эҳтимолан ба такмил ниёз дорад. Баррасии инсонӣ махсусан барои номутобиқатии оҳанг, хатогиҳои нозуки воқеӣ ва нокомиҳои риояи дастурҳо арзишманд аст.

Чӣ тавр ман метавонам бехатарӣ, устуворӣ ва хатарҳои воридкунии фавриро арзёбӣ кунам?

Бо вурудҳои "уф, корбарон" санҷед: хатогиҳои чопӣ, жаргон, дастурҳои мухолиф, дархостҳои хеле дароз ё хеле кӯтоҳ ва тағир додани ҳадафҳои бисёргардиш. Кӯшишҳои воридкунии фаврӣ ба монанди "нодида гирифтани қоидаҳои қаблӣ" ва мавзӯъҳои ҳассосро, ки радди бодиққатро талаб мекунанд, дар бар гиред. Иҷрои хуби бехатарӣ на танҳо рад кардан аст - он радди возеҳ, пешниҳоди алтернативаҳои бехатартар дар ҳолати мувофиқ ва пешгирӣ аз радди аз ҳад зиёди дархостҳои безарар, ки ба UX зарар мерасонанд, мебошад.

Чӣ тавр ман метавонам арзиш ва таъхирро ба тарзе, ки бо воқеият мувофиқат кунад, арзёбӣ кунам?

Танҳо миёнаҳоро чен накунед - тақсимоти таъхирро, махсусан p95 ва p99, пайгирӣ кунед. Арзиши як вазифаи муваффақро арзёбӣ кунед, на арзиши як токенро алоҳида, зеро кӯшишҳои такрорӣ ва натиҷаҳои пароканда метавонанд сарфакориро аз байн баранд. Устувориро дар зери бор (вақти тайм-аутҳо, маҳдудиятҳои суръат, афзоиши босуръат) ва эътимоднокии даъвати асбоб/функсия санҷед. Модели каме бадтар, ки ду баробар тезтар ё устувортар аст, метавонад интихоби беҳтари маҳсулот бошад.

Ҷараёни кории оддии аз аввал то охир барои арзёбии моделҳои зеҳни сунъӣ чист?

Меъёрҳо ва маҳдудиятҳои муваффақиятро муайян кунед, сипас маҷмӯи хурди санҷиши аслӣ (тақрибан 50-200 мисол)-ро эҷод кунед, ки истифодаи воқеиро инъикос мекунад. Маҷмӯаҳои бартарӣ ва муқобилро барои кӯшишҳои бехатарӣ ва воридкунӣ илова кунед. Санҷишҳои автоматиро иҷро кунед, сипас натиҷаҳои намунавӣ барои баҳодиҳии рубрикаи инсонӣ. Сифатро бо нарх ва таъхир дар бо бехатарӣ муқоиса кунед, озмоишро бо паҳнкунии маҳдуд ё санҷиши A/B анҷом диҳед ва дар истеҳсолот барои дрифт ва регрессияҳо назорат кунед.

Роҳҳои маъмултарини фиреб додани тасодуфии дастаҳо дар арзёбии модел кадомҳоянд?

Домҳои маъмулӣ иборатанд аз беҳсозии дархостҳо барои ноил шудан ба меъёр дар ҳоле ки корбарон азият мекашанд, ихроҷи дархостҳои арзёбӣ ба омӯзиш ё танзими дақиқи маълумот ва парастиши як метрикае, ки арзиши корбарро инъикос намекунад. Дастаҳо инчунин тағйироти тақсимотро нодида мегиранд, ба ҷои риояи формат ва садоқат "зеҳнӣ"-ро аз ҳад зиёд нишон медиҳанд ва аз санҷиши сифати радкунӣ мегузаранд. Намоишҳо метавонанд ин мушкилотро пинҳон кунанд, аз ин рӯ ба арзёбиҳои сохторӣ такя кунед, на ба ғалтакҳои таъкидшуда.

Адабиёт

  1. OpenAI - Дастури арзёбии OpenAI - platform.openai.com

  2. Институти миллии стандартҳо ва технология (NIST) - Чаҳорчӯбаи идоракунии хатарҳои зеҳни сунъӣ (AI RMF 1.0) - nist.gov

  3. OpenAI - openai/evals (Анбори GitHub) - github.com

  4. scikit-learn - precision_recall_fscore_support - scikit-learn.org

  5. Ассотсиатсияи забоншиносии ҳисоббарорӣ (Антологияи ACL) - BLEU - aclanthology.org

  6. Ассотсиатсияи забоншиносии ҳисоббарорӣ (Антологияи ACL) - ROUGE - aclanthology.org

  7. arXiv - G-Eval - arxiv.org

  8. OWASP - LLM01: Тазриқи фаврӣ - owasp.org

  9. OWASP - 10 беҳтарини OWASP барои барномаҳои моделҳои забони калон - owasp.org

  10. Донишгоҳи Стэнфорд - Коҳави ва дигарон, “Таҷрибаҳои назоратшаванда дар веб” - stanford.edu

  11. arXiv - Арзёбии RAG: Тадқиқот - arxiv.org

  12. PubMed Central (PMC) - Тадқиқоти дрейфи консепсия (PMC) - nih.gov

  13. PubMed Central (PMC) - МакХью дар бораи каппаи Коэн - nih.gov

  14. Google - Дафтари кории SRE оид ба мониторинг - google.workbook

Навтарин зеҳни сунъиро дар мағозаи расмии ёвари зеҳни сунъӣ пайдо кунед

Дар бораи мо

Бозгашт ба блог