Статыстычная класіфікацыя

задача вызначэння таго, да якой катэгорыі адносіцца назіранне

У статыстыцы класіфікацыя — задача вызначэння таго, да якой катэгорыі[en] адносіцца назіранне. Прыклады: аднясенне электроннага ліста да класа "спам" ці "не спам"[en], а таксама прызначэнне дыягназу пацыенту на аснове яго характарыстык (пол, крывяны ціск, наяўнасць або адсутнасць пэўных сімптомаў і г.д.).

Часта асобныя назіранні аналізуюцца паводле набору ўласцівасцей, вядомых як тлумачальныя зменныя або прыкметы. Гэтыя ўласцівасці могуць быць катэгарыяльнымі (напрыклад, «A», «B», «AB» ці «O», для групы крыві[en]), парадкавымі[en] (напрыклад, «вялікі», «сярэдні» ці «маленькі»), цэлалікавымі (напрыклад, колькасць уваходжанняў пэўнага слова ў электронны ліст) або ў рэчаісназначнымі (напрыклад, крывяны ціск). Іншыя класіфікатары працуюць, параўноўваючы назіранні з папярэднімі назіраннямі з дапамогай функцыі падабенства[en] або адлегласці[en].

Алгарытмы класіфікацыі, асабліва ў канкрэтнай рэалізацыі, завуцца класіфікатарамі. Тэрмін «класіфікатар» таксама часам адносіцца да матэматычнай функцыі, рэалізаванай у алгарытме класіфікацыі, якая суадносіць уваходныя даныя з катэгорыяй.

Тэрміналогія ў розных галінах можа розніцца. У статыстыцы, дзе класіфікацыя часта робіцца праз лагістычную рэгрэсію[en] ці падобную працэдуру, уласцівасці назіранняў завуцца тлумачальнымі зменнымі (або незалежнымі зменнымі, рэгрэсарамі, і г.д.), а прагназаваныя катэгорыі вядомыя як вынікі, якія прызнаюцца магчымымі значэннямі залежнай зменнай. У машынным навучанні, назіранні часта вядомыя як прыклады, тлумачальныя зменныя завуцца прыкметамі[en] (згуртаванымі ў вектары прыкмет), а магчымая катэгорыі класамі. Іншыя галіны могуць карыстацца іншай тэрміналогіяй, напрыклад у экалогіі экасістэм[en] тэрмінам «класіфікацыя» звычайна завецца кластарны аналіз[en].

Сувязь з іншымі задачамі правіць

Класіфікацыя і кластарызацыя — прыклады больш агульнай праблемы распазнавання ўзораў[en], якая заключаецца ў прысваенні выхаднога значэння зададзенаму ўваходнаму значэнню. Іншыя прыклады — рэгрэсія[en], якая прысвойвае рэчаіснае значэнне кожнаму запыту, разметка паслядоўнасці[en], якая прысвойвае клас кожнаму элементу паслядоўнасці значэнняў (напрыклад, разметка часцін мовы[en], якая вызначае часціну мовы кожнага слова ў сказе), сінтаксічны аналіз[en], які будуе сінтаксічнае дрэва[en] сказа, і г.д.

Вядомы раздзел класіфікацыі — імавернасная класіфікацыя[en]. Алгарытмы такога роду выкарыстоўваюць статыстычнае высноўванне[en], каб класіфікаваць назіранне. У адрозненне ад іншых алгарытмаў, якія проста знаходзяць найбольш імаверны клас, імавернасны алгарытм вызначае імавернасць таго, што назіранне адносіцца да кожнага з магчымых класаў. Такі алгарытм мае мноства пераваг перад неімавернаснымі класіфікатарамі:

  • Паказвае ўзровень упэўненасці алгарытму ў выбраным класе.
  • Адпаведна, можа ўстрымацца ад выбару калі ўпэўненасць у кожным з класаў занадта нізкая.
  • Дзякуючы вызначаным імавернасцям, такі класіфікатар можа быць больш удала спалучаны з большымі сістэмамі машыннага навучання, часткова ці поўнасцю ўнікаючы праблемы пашырэння памылкі.

Частотныя метады правіць

Першыя работы ў галіне статыстычнай класіфікацыі належаць Рональду Фішэру[1][2]. Ён працаваў над задачай класіфікацыі з двума класамі і стварыў метад лінейнага дыскрымінанта[3]. Фішэр дапускаў, што даныя кожнага з двух класаў маюць многавымернае нармальнае размеркаванне. Таксама разглядалася пашырэнне метаду на больш чым два класы з тым абмежаваннем, што функцыя класіфікацыі мусіць быць лінейнай[3][4]. Пазнейшыя працы для многавымернага нармальнага размеркавання дапускалі нелінейныя класіфікатары[5]: пэўныя правілы класіфікацыі могуць быць атрыманыя на аснове розных дапасаванняў адлегласці Махаланобіса[en], пры гэтым новае назіранне адносіцца да класу, цэнтр якога мае найменшую адлегласць ад назірання.

Баесаўскія метады правіць

У адрозненне ад частотных метадаў, метады баесаўскай класіфікацыі забяспечваюць натуральны спосаб уліку любой даступнай інфармацыі аб адносных памерах розных класаў у генеральнай сукупнасці[6]. Баесаўскія працэдуры, як правіла, вылічальна дарагія, і да таго, як з’явіліся вылічэнні Монтэ-Карла з ланцугамі Маркава[en], былі распрацаваны набліжэнні для баесаўскіх правіл класіфікацыі[7].

Некаторыя баесаўскія метады знаходзяць імавернасць прыналежнасці класу[en]: яны забяспечваюць больш інфарматыўны вынік, чым простае прысваенне адной меткі класа кожнаму новаму назіранню.

Бінарная і мнагакласавая класіфікацыя правіць

Класіфікацыю можна разглядаць як дзве асобныя задачы — бінарную класіфікацыю[en] і мнагакласавую класіфікацыю[en]. У бінарнай класіфікацыі, больш зразумелай задачы, задзейнічаны толькі два класы, у той час як мнагакласавая класіфікацыя прадугледжвае прысваенне аб’екта аднаму з трох ці больш класаў[8]. Праз тое, што многія метады класіфікацыі былі распрацаваны адмыслова для бінарнай класіфікацыі, мнагакласавая класіфікацыя часта патрабуе супольнага выкарыстання некалькіх бінарных класіфікатараў.

Вектары прыкмет правіць

Большасць алгарытмаў апісвае асобнае назіранне, клас якога павінны быць вызначаны з дапамогай вектара асобных, вымерных уласцівасцей назірання. Кожная ўласцівасць называецца прыкметай[en], таксама вядомай у статыстыцы як тлумачальная зменная (або незалежная зменная, хоць прыкметы могуць быць статыстычна незалежнымі, а могуць і не быць). Прыкметы могуць быць бінарнымі[en] (напрыклад, «уключана» ці «выключана»), катэгарыяльнымі (напрыклад, «A», «B», «AB» ці «O», для групы крыві[en]), парадкавымі[en] (напрыклад, «вялікі», «сярэдні» ці «маленькі»), цэлалікавымі (напрыклад, колькасць уваходжанняў пэўнага слова ў электронны ліст) або ў рэчаісназначнымі (напрыклад, крывяны ціск). Калі назіранне гэта выява, значэнні прыкмет могуць адпавядаць яе пікселям; калі асобнік гэта фрагмент тэксту, значэннямі прыкмет могуць быць частоты з’яўлення розных слоў. Некаторыя алгарытмы працуюць толькі з дыскрэтнымі данымі і патрабуюць, каб рэчаісныя або цэлыя прыкметы былі разбіты на групы (напрыклад, менш за 5, паміж 5 і 10 або больш за 10).

Лінейныя класіфікатары правіць

Вялікая колькасць алгарытмаў для класіфікацыі можа быць сфармулявана ў тэрмінах лінейнай функцыі, якая прысвойвае ацэнку кожнаму магчымаму класу   шляхам камбінавання[en] вектара прыкмет назірання з вектарам вагаў, выкарыстоўваючы скалярны здабытак. У выніку назіранне адносіцца алгарытмам да класа з найбольшай ацэнкай. Гэты тып ацэначнай функцыі вядомы як лінейная прадказальная функцыя[en] і мае наступны агульны выгляд:

 
дзе   — вектар прыкмет для назірання  ,   — вектар вагаў, адпаведных класу  , а score(Xi, k) — ацэнка аднясення назірання   да класа  . У тэорыі дыскрэтнага выбару[en], дзе назіранні ўяўляюць людзей, а класы ўяўляюць выбары, адзнака будзе карыснасцю выбару   чалавекам  . Алгарытмы з такой базавай устаноўкай вядомыя як лінейныя класіфікатары[en]. Іх адрознівае працэдура вызначэння (навучання) аптымальных вагаў/каэфіцыентаў і спосаб інтэрпрэтацыі ацэнак. Прыклады такіх алгарытмаў:

Алгарытмы правіць

Ніводная форма класіфікацыі не падыходзіць для ўсіх набораў даных, таму быў распрацаваны вялікі набор алгарытмаў класіфікацыі. Найбольш часта выкарыстоўваюцца:

Ацэнка якасці правіць

Эфектыўнасць класіфікатара ў значнай ступені залежыць ад характарыстык даных, якія трэба класіфікаваць. Не існуе адзінага класіфікатара, які лепш за ўсё працуе для ўсіх задач (феномен, які можна растлумачыць тэарэмай аб адсутнасці бясплатнага абеду[en]). Былі праведзены розныя эмпірычныя выпрабаванні для параўнання эфектыўнасці класіфікатараў і пошуку характарыстык даных, якія вызначаюць эфектыўнасць класіфікатара. Вызначэнне найлепшага класіфікатара для пэўнай задачы, аднак, больш мастацтва чым навука.

Выразнасць і паўната[en] — папулярныя паказчыкі, якія ўжываюцца для ацэнкі якасці сістэмы класіфікацыі. ROC-крывыя[en] прымяняюцца для ацэнкі кампрамісу паміж праўдзіва і хібна пазітыўнымі вынікамі алгарытмаў класіфікацыі.

У якасці меры эфектыўнасці каэфіцыент нявызначанасці[en] мае перавагу перад простай дакладнасцю[en] ў тым, што на яго не ўплываюць адносныя памеры розных класаў[9]. Акрамя таго, гэты каэфіцыент не штрафуе алгарытм за перастаноўку класаў.

Сферы прымянення правіць

Класіфікацыя мае шмат сфер прымянення. У некаторых з іх яна выкарыстоўваецца ў якасці працэдуры здабывання даных, у той час як у іншых праводзіцца больш дэталёвае статыстычнае мадэляванне.

Зноскі

  1. Fisher, R. A. (1936). "The Use of Multiple Measurements in Taxonomic Problems". Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227.
  2. Fisher, R. A. (1938). "The Statistical Utilization of Multiple Measurements". Annals of Eugenics. 8 (4): 376–386. doi:10.1111/j.1469-1809.1938.tb02189.x. hdl:2440/15232.
  3. а б Gnanadesikan, R. (1977) Methods for Statistical Data Analysis of Multivariate Observations, Wiley. ISBN 0-471-30845-5 (p. 83—86)
  4. Rao, C.R. (1952) Advanced Statistical Methods in Multivariate Analysis, Wiley. (Section 9c)
  5. Anderson, T.W. (1958) An Introduction to Multivariate Statistical Analysis, Wiley.
  6. Binder, D. A. (1978). "Bayesian cluster analysis". Biometrika. 65: 31–38. doi:10.1093/biomet/65.1.31.
  7. Binder, David A. (1981). "Approximations to Bayesian clustering rules". Biometrika. 68: 275–285. doi:10.1093/biomet/68.1.275.
  8. Har-Peled, S., Roth, D., Zimak, D. (2003) «Constraint Classification for Multiclass Classification and Ranking.» In: Becker, B., Thrun, S., Obermayer, K. (Eds) Advances in Neural Information Processing Systems 15: Proceedings of the 2002 Conference, MIT Press. ISBN 0-262-02550-7
  9. Peter Mills (2011). "Efficient statistical classification of satellite measurements". International Journal of Remote Sensing. 32 (21): 6109–6132. arXiv:1202.2194. Bibcode:2011IJRS...32.6109M. doi:10.1080/01431161.2010.507795. S2CID 88518570.