90
ҚазаҚ
стандағы
практикалық журналистика
3.0
90
ҚазаҚстандағы
практикалық журналистика
3.0
практикалыҚ нұсҚаулыҚ
Ашық деректерге ресми сайттардағы барлық мәліметті жатқызуға болады. Мысалы, data.egov.
kz жүйесіндегі барлық мәліметті ашық датаға жатқызамыз. Ол сайтта еліміздің ресми ұйымдары
жинақтаған деректер тақырыптар бойынша бөлініп, ұсынылған.
Жабық деректерге заң жүзінде жүгінуге тыйым салынған. Дата журналистер қауымдастығы бұл
тұрғыда жабық деректерді қолданғанда «журналист әдебіне» қатысты ұстанымдарды ескерген жөн
деп санайды. Себебі жабық деректерді арнайы бағдарламалау тілін білетін адам жинақтай алады.
Бірақ бұл әрекетті заң бұзушылыққа жатқызатындар бар.
Мәліметтер кестеде рет-ретімен, атауымен жүйеленіп тұрса, онымен жұмыс істеу жеңіл. Бұл
жүйеленген дерекке жатады. Алайда ашық дереккөздегі мәліметті кейде қолмен реттеп, бір жүйеге
келтіретін кездер де болады. Мысалы, ашық дереккөзде Алматы қаласындағы көлік апаты туралы
мәлімет болмауы мүмкін. Бірақ ондай ақпаратты интернет сайттардан, газеттерден жиі көреміз.
Дата журналист осы мәліметті бір кестеге жинақтап, жүйелеген соң Алматыда қай айда, қай көшеде
көлік апаты жиі болатынын анықтай алады. Kino.kz сайтындағы Алматы кинотеатрларындағы
киноның кестесі мен атауы ашық дерек болғанымен, жүйеленбеген. Ондай жағдайда Python, MySQL
тәрізді деректерді сұрыптайтын компьютер бағдарламаларын қолдануға болады. нәтижесінде
сайттағы деректер кесте күйінде түзіліп, әрі қарай есептеуге дайындалады.
MRF (Machine Readable Format) – дата журналистикада жиі естілетін сөз. Себебі дата
компьютер түсінетін форматтың бірінде болмаса, онымен анализ жасау мүмкін емес.
атыраудың қылмыс картасы
Сүлейман Демирел университетіндегі студенттеріме ашық дереккөзден дата тауып, оны сұрыптауға
тапсырма бердім. Бұған дейінгі сабақта деректерді сұрыптаудың мысалы ретінде open Refine
(бұрынғы Google Refine) бағдарламасымен жұмыс істеген едік. Одан бөлек Google-дың Drive
қосымшасында датаны картаға түсіріп, визуализациялау функциясын қарастырдық.
Төртінші курс студенті Баубек Сағындықтың жұмысына тоқталсақ.
Баубек ең әуелі data.egov.kz сайтынан Атыраудағы қылмыс файлын .xls форматындағы нұсқасымен
жүктеп алды. Бір қызығы, «Атырау қылмысы» файлында 2016 жылдың алғашқы жарты жылында
қылмыскер қандай баппен жазаға тартылғаны, қылмыс қай айда жасалғаны, тіркелген уақыты,
мекені көрсетілген.
Кейін ол файлды open Refine бағдарламасының көмегімен реттеді. Датаны реттеу дегеніміз – ұқсас
мәліметтерді бір ізге келтіру. Бір кестедегі санды да кейде үтірмен, ал кейде нүктемен жазады.
open Refine осы әртүрлілікті оңай жолмен табуға көмектеседі. нәтижесінде тізімдегі барлық атау
бірдей жазылады. Мәселен, бір кестеде «Атырау қаласы» деп тұрса, енді бір жерде «қ.Атырау»,
«город Атырау», «Атырау қ-сы» деп әртүрлі кездесуі мүмкін. Кейбір жағдайда кестеге мәлімет дұрыс
түспеген болуы мүмкін немесе нүкте, үтір ұмытылған болуы мүмкін.
Бұдан кейін датаның ішіндегі көше атаулары мен үйдің нөмірі тәрізді географикалық мәліметті
реттестіреміз. Себебі біз Google-дың картасымен жұмыс істейтін болғандықтан, атауларымыз
Google Map атауымен сәйкескені жөн.
Excel кестеміз реттелген соң ішіндегі сандарды салыстырамыз. Әдетте ең үлкен, ең аз, орташа
көрсеткіші қайсы деген тәрізді статистикалық амалдарға жүгінеміз. Бұл арқылы орташа көрсеткіштен
ауытқып тұрғаны қайсы немесе ең кіші мәліметке иесі қайсы екенін көреміз. Бұны Excel кестесінде
жасауға болады. Қажетті бағанды ерекшелеп, AZ фильтрі арқылы өзгертесіз. нәтижесінде ең кіші
және жоғарғы көрсеткішті көресіз. SPSS, R тәрізді бағдарламалар көрсеткіштердің статиcтикалық
маңыздылығын (p value) есептеп береді. Тұжырымды практикалық түрде тексеріп көрмес бұрын
деректердің статистикалық маңызы бар-жоғын анықтайды.
Сол себепті дата журналист статистиканың күрделі деңгейін оқымаса да, статистиканың кіріспе
курсынан хабары болғаны дұрыс. Қажетті жағдайда арнайы маманға барып, кеңес сұрай алады.
Деректеріміз статистикалық сүзгіден өткен соң арасындағы қызықты жайттарды көре аламыз. Егер
дайын визуализациялау құралдары болса, соған салып көруге болады. Мәселен, Баубек өзінің