15
- полуэпирикалық - эмпирикалық тәуелділік және математикалық
сипаттамалар негізінде алынған.
Деректерге анализ жасау - бұл шешім қабылдау үшін ұйымдастырылған
деректерден ақпаратты алу әдістері мен құралдарының жиынтығы. Анализ жасау
- оны алғаннан кейін және жинағаннан кейін ақпаратты өңдеу ғана емес, бұл
гипотезаны тексеру құралы. Деректерді кез келген талдаудың мақсаты -
зерттелетін жағдайды толығымен түсіну (үрдістерді,
соның ішінде жоспардан
жағымсыз ауытқуларды анықтау, болжамдау және ұсынымдарды алу). Осы
мақсатқа жету үшін келесі деректерді талдау міндеттері қойылады:
-
ақпарат жинау,
-
ақпаратты құрылымдау,
-
заңдылықтарды анықтау, талдау,
-
ұсыныстарды болжау және алу.
Барлық деректер маңызды ақпараттан тұрады, бірақ әр түрлі сұрақтар үшін.
Барлық массивтен нақты мән-жайлар үшін пайдалы деректерді бөлу үшін оларды
өңдеу қажет.
Деректерді өңдеу процесінде анализге дайындау жүргізіледі, оның
нәтижесінде олар шешілетін есептің ерекшелігімен анықталатын талаптарға
сәйкес келтіріледі.
Алдын ала өңдеу Data Mining маңызды кезеңі болып табылады және егер ол
орындалмаса, одан кейінгі анализдде көптеген жағдайларда аналитикалық
алгоритмдер жұмысына кедергі болатынды
немесе олардың жұмысының
нәтижелері дұрыс емес болуы мүмкін . Басқаша айтқанда, GIGO - garbage in,
garbage out (кіре берістегі қоқыс, шыға берістегі қоқыс) принципі іске
асырылады.
Деректерді өңдеу екі бағытты қамтиды: тазалау және оңтайландыру. Тазалау
деректер сапасын төмендететін және аналитикалық
алгоритмдердің жұмысына
кедергі келтіретін әртүрлі факторларды болдырмау мақсатында жүргізіледі. Ол
дубликаттарды, қарама-қайшылықтарды және жалған мәндерді өңдеуді,
рұқсатнамаларды қалпына келтіру мен толтыруды, шуды басуды және
ауытқушылық мәндерді редакциялауды қамтиды. Сонымен қатар,
тазарту
барысында құрылымның бұзылуы, деректердің толықтығы мен тұтастығы
қалпына келтіріледі, қате форматтар өзгертіледі.
Деректерді оңтайландыру алдын ала өңдеу элементі ретінде өлшемдікті
азайту, білмейтін белгілерді анықтау және алып тастау кіреді. Тазалаудан
оңтайландырудың негізгі айырмашылығы тазалау
процесінде жойылатын
факторлар тапсырманы шешудің дәлдігін айтарлықтай төмендетеді немесе
аналитикалық алгоритмдердің жұмысын мүмкін емес етеді. Оңтайландыру
кезінде шешілетін мәселелер деректерді нақты міндетке бейімдейді және оларды
талдаудың тиімділігін арттырады.
Деректерді алдын ала өңдеу және тазалау - бұл модельді оқыту үшін
деректер жинағын пайдаланбас бұрын орындалуы қажет маңызды міндеттер.
Өңделмеген деректер жиі бұрмаланған және сенімсіз, және оларда мәндерді
жіберіп алмауы мүмкін. Модельдеу кезінде мұндай деректерді пайдалану дұрыс
16
емес нәтижелерге әкелуі мүмкін. Бұл есептер деректер тобын өңдеу және талдау
процесінің бір бөлігі болып табылады және әдетте
қажетті алдын ала өңдеуді
анықтау және жоспарлау үшін пайдаланылатын деректер жинағын бастапқы
зерттеуді білдіреді.
Нақты деректер әр түрлі көздер мен процестерден кейін өңдеу үшін
жиналады. Олар деректер жиынтығының сапасына теріс әсер ететін қателер мен
зақымдарды қамтуы мүмкін. Бұл деректер сапасына типтік проблемалар болуы
мүмкін:
Толық емес: деректерде атрибуттар жоқ немесе оларда мәндер жоқ.
Шу: деректер қате жазбалар немесе шығарындылар бар.
Келіспеушілік: деректер өзара қақтығысатын жазбалардан немесе
алшақтықтардан тұрады.
Достарыңызбен бөлісу: