Сізге бастапқы нүктесі «SEO» болған қолданушыларды ғана сақтау керек деп есептейік. Ол үшін «source» бағанында «SEO» мәні бойынша сүзгі орындау керек:
article_read[article_read.source == 'SEO']
pandas-тың мәліметтерді қалай сүзгілейтінін түсіну маңызды болып табылады:
қадам) Ол ең алдымен тік жақшадағы әрбір жолды бағалайды: ол article_read.source бағанының 'SEO' мәні ме? Нәтиже әрдайым бульдік шама болады (True немесе False).
қадам) Содан кейін article_read кестесіндегі мәні True болған әрбір жолды шығарады.
Функциялар бірінен кейін бірі пайдаланылуы мүмкін. pandas логикасының сызықты екендігін түсіну керек. Сондықтан егер Сіз бір функцияны пайдаланатын болсаңыз, онда аталған функцияға басқа функцияны да пайдалана аласыз. Мұндай жағдайда соңы функцияның кіріс мәліметтері алдыңғы функцияның шығыс мәліметтері болып табылады. Мысалы, келесі екі алмастыру әдістерін біріктірейік:
article_read.head()[['country', 'user_id']]
Бірінші жол мәліметтер жинағындағы алғашқы 5 жолды таңдайды. Содан кейін ол «country» және «user_id» бағандарын таңдайды.
Дәл осы нәтижеге функцияларды басқа түрде қолдану арқылы қол жеткізуге бола ма? Әрине:
article_read[['country', 'user_id']].head()
Бұл жағдайда алдымен бағандар таңдалады, содан кейін алғашқы 5 жол алынады. Дәл сол нәтижені аламыз – функциялардың реті (олардың орындалуы) ерекшеленеді.
Ал егер «article_read» мәнін бастапқы read_csv() функциясымен алмастырсақ не болады:
pd.read_csv(
'pandas_tutorial_read.csv',
delimiter=';',
names = ['my_datetime', 'event', 'country', 'user_id', 'source', 'topic']
)[['country', 'user_id']].head()
Тақырыпты тексеруге арналған тапсырма:
country_2-дегі қолданушылар үшін used_id , country және topic таңдаңыз. Алғашқы 5 жолды шығарыңыз.
Біздің мәліметтеріміз бастапқыда келесі түрде болады:
Бұл хаосты өңдеуге ыңғайлы кестеге айналдыруымыз керек. Бұл тапсырманы Excel көмегімен де шешуге болады, бірақ Pandas кітапханасын пайдаланған дұрыс болып табылады.
Кітапханалар-бұл жалпы мәселелерді шешуге арналған дайын әдістер жиынтығы. Python - дағы Pandas кестелермен жұмыс істеу үшін жиі қолданылады. Атауы-panel data (ағылш. "панельдік деректер") - белгілі бір объектінің белгілі бір белгісінің уақыт аралығында өзгеруін зерттейтін экономикада қолданылатын панельдік талдау терминологиясынан шыққан (мысалы, 20 ғасырдың екінші жартысындағы Бразилиядағы кедейлік деңгейі). Pandas кітапханасы әмбебап құрал болып шықты, ол кестеге жинауға болатын кез-келген деректерді зерттеуге жарамды.
Оның көптеген мүмкіндіктері бар:
* Кестелерді манипуляциялаудың барлық түрлеріне дайын әдістер: деректерді қосу, жою, түрлендіру, біріктіру;
* Әр түрлі файлдардан деректерді бір уақытта өңдеу;
* Жетіспейтін мәндермен жұмыс істеуге, проблемалық деректерді анықтауға және жоюға дайын әдістер;
* Деректерді әртүрлі форматта пайдалану.
Кітапхана құралдары біз оны импорт тобымен шақырған кезде қол жетімді болады.
import pandas
Кітапхана айнымалыда сақталады, ол арқылы сіз оның әдістерін шақыра аласыз. Қоғамдастықта оған қысқа pd атауы берілген.
import pandas as pd
Бұл пәрмен "Pandas кітапханасын PD ретінде импорттау"дегенді білдіреді.
Бізде кестеге айналдыру керек мәліметтер жиынтығы бар. Бұл Data Frame () конструкторын шақыру арқылы жасалады.
Конструктор екі аргументті алады – кестеде болуы керек мәліметтер тізімі және баған атаулары. Мысалы, егер әртүрлі елдердің астаналары туралы ақпарат Atlas айнымалысында сақталса:
atlas = [
['Франция','Париж'],
['Россия','Москва'],
['Китай','Пекин'],
['Мексика','Мехико'],
['Египет','Каир']
]
Екі бағаннан тұратын кесте құру керек болсын: country және capital,
geography = ['country', 'capital']
DataFrame() конструкторын шақыру синтаксисі келесідей болады:
world_map = pd.DataFrame(data=atlas , columns=geography)
DataFrame() – бұл Pandas кітапханасының конструкторы, сондықтан дизайнер атауының алдында кітапхана сақталатын айнымалы – pd-ге жүгіну керек.
atlas = [
['Франция','Париж'],
['Россия','Москва'],
['Китай','Пекин'],
['Мексика','Мехико'],
['Египет','Каир'],
]
geography = ['country', 'capital']
world_map = pd.DataFrame(data=atlas , columns=geography) # таблица сохраняется в переменной с произвольно выбранным именем world_map
print(world_map) # вывод на экран
Достарыңызбен бөлісу: |