Лабораториялық жұмыс. Pandas негіздері // Файлдарды оқу, DataFrame, мәліметтерді таңдау


Сізге бастапқы нүктесі «SEO» болған қолданушыларды ғана сақтау керек деп есептейік. Ол үшін «source» бағанында «SEO» мәні бойынша сүзгі орындау керек



жүктеу 1,43 Mb.
бет3/4
Дата21.10.2022
өлшемі1,43 Mb.
#39781
1   2   3   4
№1 Лабораториялық жұмыс (1)

Сізге бастапқы нүктесі «SEO» болған қолданушыларды ғана сақтау керек деп есептейік. Ол үшін «source» бағанында «SEO» мәні бойынша сүзгі орындау керек:


article_read[article_read.source == 'SEO']
pandas-тың мәліметтерді қалай сүзгілейтінін түсіну маңызды болып табылады:

  1. қадам) Ол ең алдымен тік жақшадағы әрбір жолды бағалайды: ол article_read.source бағанының 'SEO' мәні ме? Нәтиже әрдайым бульдік шама болады (True немесе False).

  2. қадам) Содан кейін article_read кестесіндегі мәні True  болған әрбір жолды шығарады.



Функциялар бірінен кейін бірі пайдаланылуы мүмкін. pandas логикасының сызықты екендігін түсіну керек. Сондықтан егер Сіз бір функцияны пайдаланатын болсаңыз, онда аталған функцияға басқа функцияны да пайдалана аласыз. Мұндай жағдайда соңы функцияның кіріс мәліметтері алдыңғы функцияның шығыс мәліметтері болып табылады. Мысалы, келесі екі алмастыру әдістерін біріктірейік:


article_read.head()[['country', 'user_id']]
Бірінші жол мәліметтер жинағындағы алғашқы 5 жолды таңдайды. Содан кейін ол «country» және «user_id» бағандарын таңдайды.
Дәл осы нәтижеге функцияларды басқа түрде қолдану арқылы қол жеткізуге бола ма? Әрине:
article_read[['country', 'user_id']].head()
Бұл жағдайда алдымен бағандар таңдалады, содан кейін алғашқы 5 жол алынады. Дәл сол нәтижені аламыз – функциялардың реті (олардың орындалуы) ерекшеленеді.
Ал егер «article_read» мәнін бастапқы read_csv() функциясымен алмастырсақ не болады:
pd.read_csv(
'pandas_tutorial_read.csv',
delimiter=';',
names = ['my_datetime', 'event', 'country', 'user_id', 'source', 'topic']
)[['country', 'user_id']].head()


Тақырыпты тексеруге арналған тапсырма:
country_2-дегі қолданушылар үшін used_id , country және topic таңдаңыз. Алғашқы 5 жолды шығарыңыз.

Біздің мәліметтеріміз бастапқыда келесі түрде болады:



Бұл хаосты өңдеуге ыңғайлы кестеге айналдыруымыз керек. Бұл тапсырманы Excel көмегімен де шешуге болады, бірақ Pandas кітапханасын пайдаланған дұрыс болып табылады.
Кітапханалар-бұл жалпы мәселелерді шешуге арналған дайын әдістер жиынтығы. Python - дағы Pandas кестелермен жұмыс істеу үшін жиі қолданылады. Атауы-panel data (ағылш. "панельдік деректер") - белгілі бір объектінің белгілі бір белгісінің уақыт аралығында өзгеруін зерттейтін экономикада қолданылатын панельдік талдау терминологиясынан шыққан (мысалы, 20 ғасырдың екінші жартысындағы Бразилиядағы кедейлік деңгейі). Pandas кітапханасы әмбебап құрал болып шықты, ол кестеге жинауға болатын кез-келген деректерді зерттеуге жарамды.
Оның көптеген мүмкіндіктері бар:
* Кестелерді манипуляциялаудың барлық түрлеріне дайын әдістер: деректерді қосу, жою, түрлендіру, біріктіру;
* Әр түрлі файлдардан деректерді бір уақытта өңдеу;
* Жетіспейтін мәндермен жұмыс істеуге, проблемалық деректерді анықтауға және жоюға дайын әдістер;
* Деректерді әртүрлі форматта пайдалану.

Кітапхана құралдары біз оны импорт тобымен шақырған кезде қол жетімді болады.


import pandas


Кітапхана айнымалыда сақталады, ол арқылы сіз оның әдістерін шақыра аласыз. Қоғамдастықта оған қысқа pd атауы берілген.


import pandas as pd


Бұл пәрмен "Pandas кітапханасын PD ретінде импорттау"дегенді білдіреді.


Бізде кестеге айналдыру керек мәліметтер жиынтығы бар. Бұл Data Frame () конструкторын шақыру арқылы жасалады.
Конструктор екі аргументті алады – кестеде болуы керек мәліметтер тізімі және баған атаулары. Мысалы, егер әртүрлі елдердің астаналары туралы ақпарат Atlas айнымалысында сақталса:

atlas = [


['Франция','Париж'],
['Россия','Москва'],
['Китай','Пекин'],
['Мексика','Мехико'],
['Египет','Каир']
]
Екі бағаннан тұратын кесте құру керек болсын: country және capital,

geography = ['country', 'capital']




DataFrame() конструкторын шақыру синтаксисі келесідей болады:
world_map = pd.DataFrame(data=atlas , columns=geography)

DataFrame() – бұл Pandas кітапханасының конструкторы, сондықтан дизайнер атауының алдында кітапхана сақталатын айнымалы – pd-ге жүгіну керек.

atlas = [


['Франция','Париж'],
['Россия','Москва'],
['Китай','Пекин'],
['Мексика','Мехико'],
['Египет','Каир'],
]
geography = ['country', 'capital']
world_map = pd.DataFrame(data=atlas , columns=geography) # таблица сохраняется в переменной с произвольно выбранным именем world_map
print(world_map) # вывод на экран





жүктеу 1,43 Mb.

Достарыңызбен бөлісу:
1   2   3   4




©g.engime.org 2024
әкімшілігінің қараңыз

    Басты бет
рсетілетін қызмет
халықаралық қаржы
Астана халықаралық
қызмет регламенті
бекіту туралы
туралы ережені
орталығы туралы
субсидиялау мемлекеттік
кеңес туралы
ніндегі кеңес
орталығын басқару
қаржы орталығын
қаржы орталығы
құрамын бекіту
неркәсіптік кешен
міндетті құпия
болуына ерікті
тексерілу мемлекеттік
медициналық тексерілу
құпия медициналық
ерікті анонимді
Бастауыш тәлім
қатысуға жолдамалар
қызметшілері арасындағы
академиялық демалыс
алушыларға академиялық
білім алушыларға
ұйымдарында білім
туралы хабарландыру
конкурс туралы
мемлекеттік қызметшілері
мемлекеттік әкімшілік
органдардың мемлекеттік
мемлекеттік органдардың
барлық мемлекеттік
арналған барлық
орналасуға арналған
лауазымына орналасуға
әкімшілік лауазымына
инфекцияның болуына
жәрдемдесудің белсенді
шараларына қатысуға
саласындағы дайындаушы
ленген қосылған
шегінде бюджетке
салығы шегінде
есептелген қосылған
ұйымдарға есептелген
дайындаушы ұйымдарға
кешен саласындағы
сомасын субсидиялау