Дипломдық ЖҰмыс 5B070300 «Ақпараттық жүйелер»


Деректерді өңдеу және анализ



жүктеу 1,96 Mb.
Pdf просмотр
бет15/20
Дата11.02.2023
өлшемі1,96 Mb.
#41257
түріДиплом
1   ...   12   13   14   15   16   17   18   19   20
2020 БАК Марат Нұрсұлтан Олжасұлы

3.2 Деректерді өңдеу және анализ
Деректерге анализ жасау - бұл шешім қабылдау үшін ұйымдастырылған 
деректерден ақпаратты алу әдістері мен құралдарының жиынтығы. Анализ жасау 
- оны алғаннан кейін және жинағаннан кейін ақпаратты өңдеу ғана емес, бұл 
гипотезаны тексеру құралы. Деректерді кез келген талдаудың мақсаты - 
зерттелетін жағдайды толығымен түсіну (үрдістерді, соның ішінде жоспардан 
жағымсыз ауытқуларды анықтау, болжамдау және ұсынымдарды алу). Осы 
мақсатқа жету үшін келесі деректерді талдау міндеттері қойылады: 
- ақпарат жинау; 
- ақпаратты құрылымдау; 
- заңдылықтарды анықтау, талдау; 
- ұсыныстарды болжау және алу. 
Барлық деректер маңызды ақпараттан тұрады, бірақ әр түрлі сұрақтар үшін. 
Барлық массивтен нақты мән - жайлар үшін пайдалы деректерді бөлу үшін 
оларды өңдеу қажет. 
Деректерді өңдеу процесінде анализге дайындау жүргізілді, оның 
нәтижесінде олар шешілетін есептің ерекшелігімен анықталатын талаптарға 
сәйкес келтірілді. 
Алдын ала өңдеу Data Mining маңызды кезеңі болып табылады, және егер ол 
орындалмаса, одан кейінгі анализдде көптеген жағдайларда аналитикалық 
алгоритмдер жұмысына кедергі болатынды немесе олардың жұмысының 
нәтижелері дұрыс емес болуы мүмкін . Басқаша айтқанда, GIGO — garbage in, 
garbage out (кіре берістегі қоқыс, шыға берістегі қоқыс) принципі іске 
асырылады. 


21 
Деректерді өңдеу екі бағытты қамтиды: тазалау және оңтайландыру. Тазалау 
деректер сапасын төмендететін және аналитикалық алгоритмдердің жұмысына 
кедергі келтіретін әртүрлі факторларды болдырмау мақсатында жүргізіледі. Ол 
дубликаттарды, қарама - қайшылықтарды және жалған мәндерді өңдеуді, 
рұқсатнамаларды қалпына келтіру мен толтыруды, шуды басуды және 
ауытқушылық мәндерді редакциялауды қамтиды. Сонымен қатар, тазарту 
барысында құрылымның бұзылуы, деректердің толықтығы мен тұтастығы 
қалпына келтіріледі, қате форматтар өзгертіледі. 
Деректерді алдын ала өңдеу және тазалау - бұл модельді оқыту үшін 
деректер жинағын пайдаланбас бұрын орындалуы қажет маңызды міндеттер. 
Өңделмеген деректер жиі бұрмаланған және сенімсіз, және оларда мәндерді 
жіберіп алмауы мүмкін. Модельдеу кезінде мұндай деректерді пайдалану дұрыс 
емес нәтижелерге әкелуі мүмкін.
Нақты деректер әр түрлі көздер мен процестерден кейін өңдеу үшін 
жиналады. Олар деректер жиынтығының сапасына теріс әсер ететін қателер мен 
зақымдарды қамтуы мүмкін. Бұл деректер сапасына типтік проблемалар болуы 
мүмкін: 
Толық емес: деректерде атрибуттар жоқ немесе оларда мәндер жоқ. 
Шу: деректер қате жазбалар немесе шығарындылар бар. 
Келіспеушілік: деректер өзара қақтығысатын жазбалардан немесе 
алшақтықтардан тұрады. 
Біздің жағдайда деректер жинау процесінен кейінгі деректердің жалпы 
көрінісі келесідей болды.
3.3 Сурет - Деректердің жалпы көрінісі 
Ендігі кезекте осы жиналған деректерді алдын ала өңдеу процесін жасау 
тапсырмасы қойылды.
Ең алдымен біз геокодер көмегімен пәтерлердің мекенжайын кординаталар 
жүйесінде яғни бойлыққа және ендікке алмастырамыз. Бұл бізге алдағы уақытта 
географикалық параметрлермен жұмыс жасауға қажет. Деректер сақталған 
файлды келесідей оқимыз.


22 
3.4 Сурет - CSV файлды оқу 
Деректер туралы ақпаратты қарайтын болсақ бізде бар параметрлердің 
санымен және типтері көрсетілген. 
3.5 Сурет - Data Frame туралы ақпарат 
wallmaterial - қабырға материалы 
3.6 Сурет - wallmaterial туралы ақпарат 
Жоқ деректер 6.7%-ды құрайды. Жоқ деректерді келесідей толтырамыз. 
3.7 Сурет - wallmaterial бағанында жоқ деректерді толтыру 


23 
floorNumber - пәтердің қабаты 
3.8 Сурет - floorNumber туралы ақпарат 
floorsTotal - үйдің жалпы қабат саны.
3.9 Сурет - floorsTotal туралы ақпарат 
totalArea - пәтер ауданы 
3.10 Сурет - totalArea туралы ақпарат 


24 
state - пәтердің жай-күйі
3.11 Сурет - state туралы ақпарат 
Жоқ деректер 0.5% құрайды. Оны кездесу жиілігі орташа мәнмен 
толтырамыз. 
3.12 Сурет - state бағанында жоқ деректерді толтыру 
latitude - ендік
3.13 Сурет - latitude туралы ақпарат 
longitude - бойлық 


25 
3.14 Сурет - longitude туралы ақпарат 
price - патердің бағасы
3.15 Сурет - price туралы ақпарат 
year - пәтердің салынған жылы 
3.16 Сурет - year туралы ақпарат 
Параметрлер генерациясы - Машиналық оқыту үшін деректерді 
дайындаудың ең шығармашылық кезеңі. Бұл кезең Feature Engineering деп 
аталады. Ол деректерді шулы ақпараттан тазалағаннан кейінгі процесс болып 
табылады. Feature Engineering яғни бізде бар параметрлердің негізінде жаңа 


26 
параметрлер дайындаймыз. Мен бізде бар параметрлер көмегімен 3 жаңа 
параметр қостым.
3.17 Сурет - Feature Engineering 
-
priceMetr - патердің шаршы метрге шаққандағы ауданы;
-
distance - патермен қала орталығына дейінгі қашықтық;
-
azimuth - солтүстік бағытқа қатысты бұрыш.
Толық емес деректерді толтырғаннан кейінгі нәтежиелерден көретін болсақ, 
бізде екі категориялық параметр бар. 
3.18 Сурет - категориялық мәндері бар параметрлер 
Бұл параметрлермен жұмыс жасау үшін оларды сан мәндерге ауыстырдым.
3.19 Сурет - категориялық параметрлерді сандыққа ауыстыру 
Нәтижесінде мендегі деректердің жалпы көрінісі келесі кестеде көрсетілген.


27 
3.20 Сурет - Алдын ала өңдеуден кейінгі деректер 
3.21 Сурет - Параметрлер корелляциясы 
Деректерді дайындаудың ең соңғы кезеңі ол біз болжайтын мақсатты 
айнымалыны таңдаймыз. Ол бізде пәтердің шаршы метрге шаққандағы бағасы.
3.22 Сурет - Мақсатты айнымалыны таңдау 
Ендігі кезекте модельді оқытуға қатысатын параметрлерді таңдап алып, баға 
көрсетілмеген жаңа X датасетін қалыптастырамыз.


28 
3.23 Сурет - Модельді оқыту параметрлері 
Соңғы жолдағы train_test_split() функциясы автоматты түрде X пен y ті 4 
топқа бөледі. Бұл бізге модель сапасын бейтаныс деректерге тексеруге мүмкіндік 
береді. 
- жаттығу Х; 
- валидациялық (тексеру) Х; 
- жаттығу y; 
- валидациялық y. 

жүктеу 1,96 Mb.

Достарыңызбен бөлісу:
1   ...   12   13   14   15   16   17   18   19   20




©g.engime.org 2024
әкімшілігінің қараңыз

    Басты бет
рсетілетін қызмет
халықаралық қаржы
Астана халықаралық
қызмет регламенті
бекіту туралы
туралы ережені
орталығы туралы
субсидиялау мемлекеттік
кеңес туралы
ніндегі кеңес
орталығын басқару
қаржы орталығын
қаржы орталығы
құрамын бекіту
неркәсіптік кешен
міндетті құпия
болуына ерікті
тексерілу мемлекеттік
медициналық тексерілу
құпия медициналық
ерікті анонимді
Бастауыш тәлім
қатысуға жолдамалар
қызметшілері арасындағы
академиялық демалыс
алушыларға академиялық
білім алушыларға
ұйымдарында білім
туралы хабарландыру
конкурс туралы
мемлекеттік қызметшілері
мемлекеттік әкімшілік
органдардың мемлекеттік
мемлекеттік органдардың
барлық мемлекеттік
арналған барлық
орналасуға арналған
лауазымына орналасуға
әкімшілік лауазымына
инфекцияның болуына
жәрдемдесудің белсенді
шараларына қатысуға
саласындағы дайындаушы
ленген қосылған
шегінде бюджетке
салығы шегінде
есептелген қосылған
ұйымдарға есептелген
дайындаушы ұйымдарға
кешен саласындағы
сомасын субсидиялау