Пешкоркарди зеҳни сунъӣ ҳама чизест, ки шумо бо маълумоти хом пеш аз омӯзиш ё хулосабарорӣ (ва баъзан ҳангоми омӯзиш) анҷом медиҳед, то модел воқеан аз он чизеро омӯзад. На танҳо "тозакунӣ". Ин тозакунӣ, шаклдиҳӣ, миқёспазирӣ, рамзгузорӣ, зиёдкунӣ ва бастабандии маълумот ба намояндагии мувофиқ аст, ки баъдтар модели шуморо оромона вайрон намекунад. [1]
Мақолаҳоеро, ки пас аз ин мақола хондан мехоҳед:
🔗 Чӣ тавр моделҳои зеҳни сунъиро барои иҷрои воқеӣ санҷидан мумкин аст
Усулҳои амалӣ барои арзёбии зуди дақиқӣ, устуворӣ ва таассуб.
🔗 Оё AI аз матн ба нутқ аст ва он чӣ гуна кор мекунад
Асосҳои TTS, истифодаҳои асосӣ ва маҳдудиятҳои маъмули имрӯзаро шарҳ медиҳад.
🔗 Оё имрӯз зеҳни сунъӣ метавонад хатти курсивро дақиқ хонад?
Мушкилоти шинохт, беҳтарин абзорҳо ва маслиҳатҳои дақиқиро фаро мегирад.
🔗 То чӣ андоза дақиқ будани зеҳни сунъӣ дар вазифаҳои маъмулӣ
Омилҳои дақиқӣ, меъёрҳо ва эътимоднокии воқеиро таҳлил мекунад.
Пешкоркарди зеҳни сунъӣ бо забони оддӣ (ва он чизе ки нест) 🤝
Пешкоркарди зеҳни сунъӣ табдил додани вурудоти хом (ҷадвалҳо, матн, тасвирҳо, гузоришҳо) ба хусусиятҳои омода барои модел мебошад. Агар маълумоти хом як гаражи бетартиб бошад, пешкоркард ин нишонгузорӣ кардани қуттиҳо, партофтани партовҳои шикаста ва ҷамъ кардани чизҳо барои он аст, ки шумо воқеан бе ҷароҳат аз он гузаред.
Ин худи модел нест. Ин чизҳоест, ки моделро имконпазир мегардонанд:
-
табдил додани категорияҳо ба рақамҳо (як-гарм, тартибӣ ва ғайра) [1]
-
миқёспазир кардани диапазонҳои рақамии калон ба диапазонҳои оқилона (стандартизатсия, ҳадди ақал-макс ва ғайра) [1]
-
токенкунонии матн ба ID-ҳои вурудӣ (ва одатан ниқоби диққат) [3]
-
тағир додани андоза/буридани тасвирҳо ва татбиқи мувофиқи табдилҳои детерминистӣ ва тасодуфӣ [4]
-
сохтани лӯлаҳои такроршаванда, то ки омӯзиш ва вурудҳои "ҳаёти воқеӣ" ба таври нозук фарқ накунанд [2]
Як қайди амалии хурд: "пешкоркард" ҳар чизеро дар бар мегирад, ки пеш аз дидани вуруди модел пайваста рух медиҳад . Баъзе гурӯҳҳо инро ба "муҳандисии хусусиятҳо" ва "тозакунии маълумот" тақсим мекунанд, аммо дар ҳаёти воқеӣ ин хатҳо норавшананд.

Чаро коркарди пешакии зеҳни сунъӣ нисбат ба он ки одамон эътироф мекунанд, муҳимтар аст 😬
Модел як мутобиқкунандаи намуна аст, на хонандаи ақл. Агар вурудоти шумо номувофиқ бошанд, модел қоидаҳои номувофиқро меомӯзад. Ин фалсафӣ нест, он ба маънои аслӣ аст.
Коркарди пешакӣ ба шумо кӯмак мекунад:
-
Устувории омӯзишро тавассути ворид кардани хусусиятҳо ба намояндагиҳо, ки баҳодиҳандагон метавонанд боэътимод истифода баранд (хусусан вақте ки миқёспазирӣ/рамзгузорӣ дахл дорад), беҳтар кунед. [1]
-
Садоро бо роҳи ба чизе монанд кардани воқеияти бетартиб ба чизе, ки модел метавонад аз он умумӣ кунад (ба ҷои азёд кардани артефактҳои аҷиб), кам кунед.
-
Аз усулҳои нокомии хомӯш, ба монанди ихроҷ ва номувофиқатии омӯзиш/хизматрасонӣ (намуди он, ки дар тасдиқ "аҷиб" ба назар мерасад ва сипас дар истеҳсолот рӯйпӯшҳо) пешгирӣ кунед. [2]
-
Итератсияро суръат бахшед, зеро табдилоти такроршаванда ҳар рӯзи ҳафта аз спагеттии дафтар бартарӣ доранд.
Ғайр аз ин, аз он ҷое, ки "иҷрои намунавӣ" дар асл аз он сарчашма мегирад. Мисли... ҳайратовар аст, ки хеле зиёд. Баъзан ин ноодилона ба назар мерасад, аммо ин воқеият аст 🙃
Чӣ лӯлаи хуби коркарди пешакӣ зеҳни сунъӣ месозад ✅
«Нусхаи хуби» коркарди пешакӣ одатан чунин хислатҳоро дорад:
-
Такроршаванда : ҳамон вуруд → ҳамон баромад (бе тасодуфии асроромез, агар он қасдан афзоиш дода нашавад).
-
Мутобиқати хидматрасонии омӯзиш : ҳар коре, ки шумо дар вақти омӯзиш анҷом медиҳед, дар вақти хулосабарорӣ ҳамон тавр татбиқ мешавад (ҳамон параметрҳои мувофиқ, ҳамон харитаҳои категория, ҳамон конфигуратсияи токенайзер ва ғайра). [2]
-
Бехатар аз ихроҷ : ҳеҷ чиз дар арзёбӣ/озмоиш ба ягон
мувофиқ. (Дар бораи ин дом каме баъдтар маълумоти бештар хоҳед гирифт.) [2] -
Мушоҳидашаванда : шумо метавонед тағиротро (омори хусусиятҳо, гумшуда, шумораи категорияҳо) тафтиш кунед, аз ин рӯ ислоҳи хатогиҳо муҳандисии бар асоси вибратсияҳо нест.
Агар коркарди пешакии шумо як тӯда ҳуҷайраҳои дафтар бо номи final_v7_really_final_ok ... шумо медонед, ки он чӣ гуна аст. Он то он даме кор мекунад, ки кор намекунад 😬
Блокҳои асосии сохтмонии пешкоркарди зеҳни сунъӣ 🧱
Пешкоркардро ҳамчун маҷмӯи блокҳои сохтмонӣ, ки шумо онҳоро ба лӯлаи қубур муттаҳид мекунед, тасаввур кунед.
1) Тозакунӣ ва тасдиқ 🧼
Вазифаҳои маъмулӣ:
-
нусхаҳоро тоза кунед
-
коркарди арзишҳои гумшуда (партофтан, илова кардан ё гумшударо ба таври возеҳ нишон додан)
-
намудҳо, воҳидҳо ва диапазонҳоро татбиқ кунед
-
муайян кардани вурудҳои нодуруст
-
стандартикунонии форматҳои матн (фосилаи холӣ, қоидаҳои қуттӣ, хусусиятҳои Юникод)
Ин қисм зебо нест, аммо аз хатогиҳои бениҳоят бемаънӣ пешгирӣ мекунад. Ман инро бо муҳаббат мегӯям.
2) Рамзгузории маълумоти категориявӣ 🔤
Аксари моделҳо наметавонанд мустақиман сатрҳои хомро ба монанди "red" ё "premium_user" .
Усулҳои маъмул:
-
Рамзгузории яквақта (категория → сутунҳои дуӣ) [1]
-
Рамзгузории тартибӣ (категория → ID-и бутун) [1]
Нуктаи асосӣ дар он нест, кадом рамзгузорро интихоб мекунед - муҳим он аст, ки харитасозӣ яксон боқӣ монад ва байни омӯзиш ва хулоса "шаклро тағйир надиҳад". Ҳамин тавр шумо бо моделе рӯ ба рӯ мешавед, ки дар офлайн хуб ба назар мерасад ва дар интернет арвоҳӣ аст. [2]
3) Миқёспазирӣ ва ба эътидол овардани хусусиятҳо 📏
Миқёспазирӣ вақте муҳим аст, ки хусусиятҳо дар диапазонҳои хеле гуногун фаъолият кунанд.
Ду асари классикӣ:
-
Стандартизатсия : миёна ва миқёсро ба дисперсияи воҳидӣ хориҷ кунед [1]
-
Миқёспазирии ҳадди ақал-ҳадди аксар : миқёспазирии ҳар як хусусият дар диапазони муайяншуда [1]
Ҳатто вақте ки шумо моделҳоеро истифода мебаред, ки "аксаран бомуваффақият" кор мекунанд, миқёспазирӣ аксар вақт ба осонӣ мулоҳиза рондан дар бораи лӯлаҳоро осонтар мекунад ва шикастани тасодуфиро душвортар мекунад.
4) Муҳандисии хусусиятҳо (яъне фиреби муфид) 🧪
Ин аст он ҷое ки шумо кори моделро тавассути эҷоди сигналҳои беҳтар осонтар мекунед:
-
нисбатҳо (кликҳо / таассурот)
-
тирезаҳои ғелондашаванда (N рӯзи охир)
-
шумора (чорабиниҳо барои як корбар)
-
табдилҳои логарифмӣ барои тақсимоти думи вазнин
Дар ин ҷо як санъат ҳаст. Баъзан шумо мақолае эҷод мекунед, ифтихор мекунед... ва он ҳеҷ натиҷае намедиҳад. Ё бадтараш, дардовар аст. Ин муқаррарӣ аст. Ба мақолаҳо аз ҷиҳати эмотсионалӣ дилбаста нашавед - онҳо шуморо дар ҷавоб дӯст намедоранд 😅
5) Тақсимоти дурусти маълумот ✂️
Ин то он даме, ки чунин набошад, равшан ба назар мерасад:
-
тақсимоти тасодуфӣ барои маълумоти iid
-
тақсимоти вақтӣ барои силсилаҳои вақтӣ
-
тақсимоти гурӯҳӣ ҳангоми такрори объектҳо (корбарон, дастгоҳҳо, беморон)
Ва муҳимтар аз ҳама: пеш аз мувофиқ кардани коркарди пешакӣ, ки аз маълумот меомӯзад, тақсим кунед . Агар қадами коркарди пешакӣ шумо параметрҳоро (ба монанди воситаҳо, луғатҳо, харитаҳои категорияҳо) "меомӯзад", он бояд онҳоро танҳо аз омӯзиш омӯзад. [2]
Пешкоркарди зеҳни сунъӣ аз рӯи намуди маълумот: ҷадвалӣ, матнӣ, тасвирҳо 🎛️
Коркарди пешакӣ вобаста ба он чизе, ки шумо моделро медиҳед, шаклро тағйир медиҳад.
Маълумоти ҷадвалӣ (ҷадвалҳои электронӣ, гузоришҳо, пойгоҳи додаҳо) 📊
Қадамҳои маъмулӣ:
-
стратегияи арзиши гумшуда
-
рамзгузории категориявӣ [1]
-
миқёспазирии сутунҳои рақамӣ [1]
-
коркарди берунӣ (қоидаҳои домен аксар вақт аз "буридани тасодуфӣ" бартарӣ доранд)
-
хусусиятҳои ҳосилшуда (агрегатсияҳо, таъхирҳо, омори ғелондашуда)
Маслиҳати амалӣ: гурӯҳҳои сутунро ба таври возеҳ муайян кунед (рақамӣ ва категориявӣ ва идентификаторҳо). Худи ояндаи шумо аз шумо миннатдор хоҳад буд.
Маълумоти матнӣ (NLP) 📝
Коркарди матн аксар вақт инҳоро дар бар мегирад:
-
токенизатсия ба токенҳо/зеркалимаҳо
-
табдилдиҳӣ ба ID-ҳои вурудӣ
-
пуркунӣ/буридан
-
сохтани ниқобҳои диққат барои ҷамъоварӣ [3]
Қоидаи хурде, ки дардро пешгирӣ мекунад: барои танзимоти трансформаторӣ, танзимоти интизории токенизатори моделро риоя кунед ва агар сабабе надошта бошед, фристайл накунед. Фристайл ин аст, ки чӣ гуна шумо бо "он машқ мекунад, аммо аҷиб аст" мешавед
Тасвирҳо (биниши компютерӣ) 🖼️
Коркарди пешакии маъмулӣ:
-
андозаро тағир диҳед / ба шаклҳои мувофиқ буред
-
табдилоти детерминистӣ барои арзёбӣ
-
табдилоти тасодуфӣ барои такмили омӯзиш (масалан, буридани тасодуфӣ) [4]
Як ҷузъиёти норавшанро одамон аз даст медиҳанд: "табдилҳои тасодуфӣ" танҳо як вибратсия нестанд - онҳо ҳар дафъае, ки онҳоро даъват мекунанд, параметрҳоро воқеан намуна мегиранд. Барои омӯзиши гуногунрангӣ хеле хуб аст, агар шумо фаромӯш кунед, ки тасодуфиро хомӯш кунед, барои арзёбӣ даҳшатнок аст. [4]
Доме, ки ҳама ба он меафтанд: ихроҷи маълумот 🕳️🐍
Ихроҷ вақте рух медиҳад, ки маълумот аз маълумоти арзёбӣ ба омӯзиш ворид мешавад - аксар вақт тавассути коркарди пешакӣ. Ин метавонад модели шуморо ҳангоми тасдиқ ҷодугарӣ кунад ва сипас шуморо дар ҷаҳони воқеӣ ноумед кунад.
Намунаҳои маъмулии ихроҷ:
-
миқёспазирӣ бо истифода аз омори пурраи маҷмӯи додаҳо (ба ҷои омӯзиш танҳо) [2]
-
харитаҳои категорияи бино бо истифода аз қатора+озмоиш якҷоя [2]
-
ҳар
fit()ёfit_transform(), ки маҷмӯи санҷишро "мебинад" [2]
Қоидаи оддӣ (содда, бераҳмона, самаранок):
-
мувофиқ дорад, бояд танҳо ҳангоми машқ мувофиқ бошад.
-
Сипас шумо валидатсия/озмоишро бо истифода аз он трансформатори насбшуда табдил медиҳед
Ва агар шумо хоҳед, ки "ин то чӣ андоза бад буда метавонад?", санҷед: ҳуҷҷатҳои худи scikit-learn мисоли ихроҷро нишон медиҳанд, ки дар он тартиби нодурусти коркарди пешакӣ дақиқиро дар ҳадафҳои тасодуфӣ тақрибан 0.76 ва сипас пас аз ислоҳи ихроҷ ба ~ 0.5 бармегардад. Ихроҷи нодурусти боварибахш метавонад чунин ба назар расад. [2]
Ворид кардани коркарди пешакӣ ба истеҳсолот бидуни бесарусомонӣ 🏗️
Бисёре аз моделҳо дар истеҳсолот на аз он сабаб, ки модел "бад" аст, балки аз он сабаб, ки воқеияти вуруд тағйир меёбад - ё лӯлаи шумо тағйир меёбад, ноком мешаванд.
Коркарди пешакӣ бо мақсади истеҳсолӣ одатан инҳоро дар бар мегирад:
-
Артефактҳои захирашуда (харитасозии рамзгузор, параметрҳои миқёспазир, конфигуратсияи токенизатор), аз ин рӯ, хулоса ҳамон табдилоти омӯхташударо истифода мебарад [2]
-
Шартномаҳои қатъии вурудӣ (сутунҳо/намудҳо/диапазонҳои интизоршаванда)
-
Мониторинги каҷравӣ ва дрейф , зеро маълумоти истеҳсолӣ хоҳад буд [5]
Агар шумо таърифҳои мушаххасро мехоҳед: Vertex AI Model Monitoring-и Google каҷравии хидматрасонии омӯзиш (тақсимоти истеҳсолот аз омӯзиш фарқ мекунад) ва гардиши хулоса (тақсимоти истеҳсолот бо мурури замон тағйир меёбад)-ро фарқ мекунад ва мониторингро ҳам барои хусусиятҳои категориявӣ ва ҳам рақамӣ дастгирӣ мекунад. [5]
Зеро сюрпризҳо гарон ҳастанд. Ва на он қадар шавқовар.
Ҷадвали муқоиса: абзорҳои маъмулии пешкоркард + мониторинг (ва онҳо барои кӣ ҳастанд) 🧰
| Асбоб / китобхона | Беҳтарин барои | Нарх | Чаро он кор мекунад (ва каме ростқавлӣ) |
|---|---|---|---|
| коркарди пешакии scikit-learn | Қубурҳои ҷадвалии ML | Озод | Рамзгузорҳои сахт + миқёсгузорҳо (OneHotEncoder, StandardScaler ва ғайра) ва рафтори пешгӯишаванда [1] |
| Токенайзерҳои чеҳраи оғӯшӣ | Омодагии вуруди NLP | Озод | ID-ҳои вурудӣ + ниқобҳои диққатро дар тамоми даврҳо/моделҳо пайваста тавлид мекунад [3] |
| табдилоти Torchvision | Тағйироти биниш + афзоиш | Озод | Роҳи тозаи омезиши табдилоти детерминистӣ ва тасодуфӣ дар як лӯла [4] |
| Мониторинги модели Vertex AI | Муайянкунии дрифт/каҷравӣ дар маҳсулот | Пардохтшуда (абрӣ) | Мониторҳо дорои каҷравӣ/ҳаракат ва огоҳӣ ҳангоми аз ҳад зиёд шудани меъёрҳо мебошанд [5] |
(Бале, дар ҷадвал ҳоло ҳам андешаҳо мавҷуданд. Аммо ҳадди аққал андешаҳои самимӣ ҳастанд 😅)
Рӯйхати санҷиши амалии пешакӣ коркардшуда, ки шумо метавонед дар асл истифода баред 📌
Пеш аз машқ
-
Схемаи вурудро муайян кунед (намудҳо, воҳидҳо, диапазонҳои иҷозатдодашуда)
-
Арзишҳои гумшуда ва нусхабардориро тафтиш кунед
-
Тақсим кардани маълумот бо роҳи дуруст (тасодуфӣ / вақтӣ / гурӯҳбандӣ)
-
Коркарди пешакӣ барои мувофиқат танҳо (
fit/fit_transformдар машқ боқӣ мемонад) [2] -
Артефактҳои пешакӣ коркардшударо захира кунед, то хулосабарорӣ онҳоро дубора истифода барад [2]
Ҳангоми омӯзиш
-
Танҳо дар ҳолатҳои зарурӣ афзоиши тасодуфиро истифода баред (одатан танҳо дар қисмати омӯзиш) [4]
-
Пеш аз коркарди арзёбӣ детерминистӣ бошед [4]
-
Тағйироти пешакӣ коркардро ба монанди тағйироти модел пайгирӣ кунед (зеро онҳо ҳастанд)
Пеш аз ҷойгиркунӣ
-
Боварӣ ҳосил кунед, ки хулоса роҳи коркарди пешакӣ ва артефактҳои якхеларо истифода мебарад [2]
-
Мониторинги дрейф/каҷравиро танзим кунед (ҳатто санҷишҳои оддии тақсимоти хусусиятҳо роҳи дурро тай мекунанд) [5]
Гузариши амиқ: хатогиҳои маъмулии пешакӣ коркард (ва чӣ гуна аз онҳо канорагирӣ кардан) 🧯
Хатои 1: "Ман зуд ҳама чизро ба ҳолати муқаррарӣ мегузорам" 😵
Агар шумо параметрҳои миқёспазириро дар маҷмӯи пурраи додаҳо ҳисоб кунед, шумо маълумоти арзёбӣро аз байн мебаред. Мутобиқ кунед, боқимондаро табдил диҳед. [2]
Хатои 2: категорияҳо ба бесарусомонӣ ғӯтавар мешаванд 🧩
Агар харитасозии категорияҳои шумо байни омӯзиш ва хулосабарорӣ тағйир ёбад, модели шумо метавонад ҷаҳонро пинҳонӣ нодуруст фаҳмад. Харитасозиро тавассути артефактҳои захирашуда ислоҳ кунед. [2]
Хатои 3: афзоиши тасодуфӣ пинҳонӣ ба арзёбӣ ворид мешавад 🎲
Табдилоти тасодуфӣ дар машқ хеле хубанд, аммо ҳангоми кӯшиши чен кардани самаранокӣ, онҳо набояд "пинҳон" бошанд. (Тасодуфӣ маънои тасодуфиро дорад.) [4]
Шарҳҳои ниҳоӣ 🧠✨
Пешкоркарди зеҳни сунъӣ санъати интизомноки табдил додани воқеияти бетартиб ба вурудоти пайвастаи модел мебошад. Он тозакунӣ, рамзгузорӣ, миқёспазирӣ, токенизатсия, табдили тасвир ва аз ҳама муҳимтар, лӯлаҳо ва артефактҳои такроршавандаро дар бар мегирад.
-
Пешкоркардро қасдан анҷом диҳед, на тасодуфӣ. [2]
-
Аввал тақсим кунед, танҳо дар вақти машқ тағиротҳоро мувофиқ кунед, аз ихроҷ пешгирӣ кунед. [2]
-
Пешкоркарди мувофиқи моддиятро истифода баред (токенайзерҳо барои матн, табдилдиҳӣ барои тасвирҳо). [3][4]
-
Назорат кардани каҷравии истеҳсолот/равиши он, то ки модели шумо оҳиста-оҳиста ба бемаънӣ табдил наёбад. [5]
Ва агар шумо ягон вақт дармонда бошед, аз худ бипурсед:
"Оё ин қадами коркарди пешакӣ ҳам маъно дорад, агар ман онро фардо дар маълумоти нав иҷро кунам?"
Агар ҷавоб "эҳҳ... шояд?" бошад, ин калиди шумост 😬
Иқтибосҳо
[1] API-и scikit-learn:
sklearn.preprocessing (энкодерҳо, миқёсгузорҳо, нормализатсия) [2] scikit-learn: Хатогиҳои маъмулӣ - Ихроҷи маълумот ва чӣ гуна пешгирӣ кардан аз он
[3] Ҳуҷҷатҳои Трансформаторҳои Ҳушдор: Токенизаторҳо (ID-ҳои вуруд, ниқобҳои диққат)
[4] Ҳуҷҷатҳои PyTorch Torchvision: Табдилдиҳӣ (андозагирӣ/нормаликунонӣ + табдилҳои тасодуфӣ)
[5] Ҳуҷҷатҳои зеҳни сунъии Google Cloud Vertex: Шарҳи мухтасари мониторинги модел (каҷравӣ ва дрифти хусусиятҳо)