Даследаванне даных
Даследаванне даных — пачатковы этап аналізу даных , у ходзе якога выяўляюцца характарыстыкі, выкіды і заканамернасці ў даных з дапамогай статыстычных метадаў і візуалізацыі . Можа праводзіцца як уручную, так і з дапамогай аўтаматызаваных метадаў[1]. Вынік даследавання — набор візуалізацый і метаданых , напрыклад максімум, мінімум і сярэдняе значэнне атрыбутаў даных[2].
Прадметы даследавання
правіцьУ працэсе даследавання даных, пра кожны з іх атрыбутаў (напрыклад, слупок у табліцы ) збіраюцца і дакументуюцца наступныя звесткі[2]:
- Назва
- Колькасць запісаў
- Тып даных (катэгарыяльны , лікавы, тэкставы і г.д.)
- Лікавыя характарыстыкі для лікавых даных (мінімум, максімум, сярэдняе, медыяна і г.д.)
- Колькасць пропускаў (доля прапушчаных значэнняў ад усіх запісаў)
- Тып размеркавання (нармальнае, раўнамернае, лагарыфмічнае і г.д.)
Акрамя гэтага, даследуецца карэляцыя паміж атрыбутамі і ствараюцца візуалізацыі.
Інструменты
правіцьНайбольш распаўсюджаныя мовы праграмаваня для даследавання даных — Python і R. Для візуалізацыі выкарыстоўваюцца такія інструменты, як Microsoft Power BI , Qlik , Tableau і Jupyter[2]. Падобныя інструменты даюць магчымаць эфектыўней прэзентаваць вынікі праз інтэрактыўныя візуалізацыі[1].
Крыніцы
правіць- ↑ а б What is data exploration? (англ.). TechTarget. Праверана 13 снежня 2023.
- ↑ а б в Three Levels of ML Software (англ.). ML Ops: Machine Learning Operations. Праверана 13 снежня 2023.