21
Деректерді өңдеу екі бағытты қамтиды: тазалау және оңтайландыру. Тазалау
деректер сапасын төмендететін және аналитикалық алгоритмдердің жұмысына
кедергі келтіретін әртүрлі факторларды болдырмау мақсатында жүргізіледі. Ол
дубликаттарды, қарама - қайшылықтарды және жалған мәндерді өңдеуді,
рұқсатнамаларды
қалпына келтіру мен толтыруды, шуды басуды және
ауытқушылық мәндерді редакциялауды қамтиды. Сонымен қатар, тазарту
барысында құрылымның бұзылуы, деректердің толықтығы мен тұтастығы
қалпына
келтіріледі, қате форматтар өзгертіледі.
Деректерді алдын ала өңдеу және тазалау - бұл модельді оқыту үшін
деректер жинағын пайдаланбас бұрын орындалуы қажет маңызды міндеттер.
Өңделмеген деректер жиі бұрмаланған және сенімсіз, және оларда мәндерді
жіберіп алмауы мүмкін. Модельдеу кезінде мұндай деректерді пайдалану дұрыс
емес нәтижелерге әкелуі мүмкін.
Нақты деректер әр түрлі көздер мен процестерден кейін өңдеу үшін
жиналады. Олар деректер жиынтығының сапасына теріс әсер ететін қателер мен
зақымдарды қамтуы мүмкін. Бұл деректер сапасына типтік проблемалар болуы
мүмкін:
Толық емес: деректерде атрибуттар жоқ немесе оларда мәндер жоқ.
Шу: деректер қате жазбалар немесе шығарындылар бар.
Келіспеушілік: деректер өзара қақтығысатын жазбалардан немесе
алшақтықтардан тұрады.
Біздің жағдайда деректер жинау процесінен кейінгі деректердің жалпы
көрінісі келесідей болды.
3.3 Сурет - Деректердің жалпы көрінісі
Ендігі кезекте осы жиналған деректерді алдын ала өңдеу процесін жасау
тапсырмасы қойылды.
Ең алдымен біз геокодер көмегімен пәтерлердің мекенжайын кординаталар
жүйесінде яғни бойлыққа және ендікке алмастырамыз. Бұл бізге алдағы уақытта
географикалық параметрлермен жұмыс жасауға қажет.
Деректер сақталған
файлды келесідей оқимыз.
22
3.4 Сурет - CSV файлды оқу
Деректер туралы ақпаратты қарайтын болсақ бізде бар параметрлердің
санымен және типтері көрсетілген.
3.5 Сурет - Data Frame
туралы ақпарат
wallmaterial - қабырға материалы
3.6 Сурет - wallmaterial туралы ақпарат
Жоқ деректер 6.7%-ды құрайды. Жоқ деректерді келесідей толтырамыз.
3.7 Сурет - wallmaterial бағанында
жоқ деректерді толтыру
24
state - пәтердің жай-күйі
3.11 Сурет - state туралы ақпарат
Жоқ деректер 0.5% құрайды. Оны кездесу жиілігі орташа мәнмен
толтырамыз.
3.12 Сурет - state бағанында жоқ деректерді толтыру
latitude
- ендік
3.13 Сурет - latitude туралы ақпарат
longitude - бойлық
26
параметрлер дайындаймыз. Мен бізде бар параметрлер көмегімен 3 жаңа
параметр қостым.
3.17 Сурет - Feature Engineering
-
priceMetr - патердің шаршы метрге шаққандағы ауданы;
-
distance - патермен қала орталығына
дейінгі қашықтық;
-
azimuth - солтүстік бағытқа қатысты бұрыш.
Толық емес деректерді толтырғаннан кейінгі нәтежиелерден көретін болсақ,
бізде екі категориялық параметр бар.
3.18 Сурет - категориялық мәндері бар параметрлер
Бұл параметрлермен жұмыс жасау үшін оларды сан мәндерге ауыстырдым.
3.19 Сурет - категориялық параметрлерді сандыққа ауыстыру
Нәтижесінде мендегі деректердің жалпы көрінісі келесі кестеде көрсетілген.
28
3.23 Сурет - Модельді оқыту параметрлері
Соңғы жолдағы train_test_split() функциясы автоматты түрде X пен y ті 4
топқа бөледі. Бұл бізге модель сапасын бейтаныс деректерге тексеруге мүмкіндік
береді.
- жаттығу Х;
- валидациялық (тексеру) Х;
- жаттығу y;
- валидациялық y.
Достарыңызбен бөлісу: