лабораториялық жұмыс. Pandas негіздері // Файлдарды оқу, DataFrame, мәліметтерді таңдау
Pandas-аналитика мен Data Science-пен жұмыс істеуге арналған ең танымал Python кітапханаларының бірі. Бұл Python үшін SQL сияқты. Себебі pandas Python-да екі өлшемді деректер кестелерімен жұмыс істеуге мүмкіндік береді. Оның басқа да көптеген ерекшеліктері бар. Pandas зертханалық жұмысында сіз аналитик немесе Data Science маманы білуі керек ең маңызды (және жиі қолданылатын) нәрсені білесіз. Ол үшін:
1. Python3.7+, numpy және Pandas орнатыңыз.
2. Келесі қадам: серверге қосылыңыз (немесе жергілікті) және Jupyter іске қосыңыз. Содан кейін браузерде Jupyter Notebook ашыңыз. "Pandas_tutorial_1"деп аталатын жаңа ноутбук жасаңыз.
1. Numpy және pandas-ты Jupyter Notebook-қа кодтың екі жолымен импорттаңыз:
import numpy as np
import pandas as pd
Ескерту: "pandas"-қа "pd" аббревиатурасы арқылы жүгінуге болады. Егер import нұсқаулығының соңында as pd болса, Jupyter Notebook болашақта pd енгізу кезінде pandas кітапханасы екенін түсінеді. Енді бәрі реттелген! Pandas нұсқаулығына өтіңіз! Бірінші сұрақ:
Pandas-та деректер файлдарын қалай ашуға болады?
Ақпаратты csv файлдарда немесе SQL кестелерінде сақтауға болады. Excel файлдарында да, тіпті .tsv файлдарда да сақтауға болады. Егер pandas көмегімен деректерді талдау қажет болса, pandas үйлесімді деректер құрылымы қажет.
Python деректер құрылымы
Pandas-да деректер құрылымының екі түрі бар: series және DataFrame.
Series – бұл деректерді сақтайтын бір өлшемді деректер құрылымы ("бір өлшемді ndarray"). Әр мән үшін оның бірегей индексі бар.
DataFrame-бағандар мен жолдардан тұратын екі өлшемді құрылым. Бағандарда атаулар, ал жолдарда индекстер бар.
Pandas нұсқаулығында басты назар Dataframe-ге аударылады. Мұның себебі қарапайым:аналитикалық әдістердің көпшілігінде екі өлшемді құрылымда жұмыс істеу ыңғайлы болып табылады.
.csv файлды pandas DataFrame-ге жүктеу
csv файлын жүктеу үшін pandas-та read_csv () функциясын қолданады.
Zoo деп аталатын қарапайым үлгіден бастайық. Бұл жолы тәжірибе үшін Сіз дербес .csv файл жасауыңыз керек деп есептейміз. Төменде шикі деректер келтірілген:
animal,uniq_id,water_need
elephant,1001,500
elephant,1002,600
elephant,1003,550
tiger,1004,300
tiger,1005,320
tiger,1006,330
tiger,1007,290
tiger,1008,310
zebra,1009,200
zebra,1010,220
zebra,1011,240
zebra,1012,230
zebra,1013,220
zebra,1014,100
zebra,1015,80
lion,1016,420
lion,1017,600
lion,1018,500
lion,1019,390
kangaroo,1020,410
kangaroo,1021,430
kangaroo,1022,410
Жаңа мәтіндік файл жасау үшін “Home” https://you_ip:you_port/tree Jupyter ораламыз.
содан кейін осы мәтіндік файлға ақпаратты енгізу үшін жоғарыдағы деректерді көшіріңіз.
…және оны zoo.csv деп атаймыз!
Бұл Сіздің алғашқы .csv файлыңыз.
Jupyter Notebook-ке оралып ( «pandas_tutorial_1» деп аталатын), ол жерде аталған .csv файлды ашамыз.
Ол үшін read_csv() функциясы керек.
Келесі кодты жаңа жолға жазамыз:
pd.read_csv('zoo.csv', delimiter=',')
Дайын! Бұл – pandas-қа көшірілген zoo.csv файлы. Бұл екіөлшемді кесте – DataFrame. Сол жақтағы сандар – индекстер. Ал бағандардың жоғары жағындағы атаулар zoo.csv файлының бірінші жолынан алынған. Шын мәнінде, тәжірибеде Сізге мысалдағыдай жаңа файл құрастыру аса жиі кездеспеуі мүмкін. Сіз мәліметтері бар дайын файлдармен жұмыс істейтін боласыз. Сол себепті оларды серверге қалай жүктеу керектігін білген дұрыс.
Бұл жерде кішігірім мәліметтер жинағы келтірілген: https://pythonru.com/downloads/pandas_tutorial_read.csv
Егер сілтемені басатын болсаңыз, мәліметтері бар файл Сіздің компьютеріңізге көшірілетін болады. Бірақ оны ДК-де сақтаудың қажеттілігі жоқ. Оны алдымен серверге, кейін Jupyter Notebook-ке жүктеуге болады. Ол үшін бар болғаны екі қадамды орындау керек:
қадам) Jupyter Notebook-ке оралып, келесі команданы енгізу:
!wget https://pythonru.com/downloads/pandas_tutorial_read.csv
Бұл pandas_tutorial_read.csv файлын серверге жүктейді. Тексеріп көріңіз:
Егер оны басатын болсақ,
... файлдағы барлық ақпаратты ала аламыз.
қадам) Jupyter Notebook-ке оралып, read_csv функциясын қолдану (файлдың атауы мен ажыратқыштың мәнін ауыстыруды ұмытпаған жөн):
pd.read_csv('pandas_tutorial_read.csv', delimete=';')
мәліметтер pandas-қа жүктелді!
Не байқадыңыз? Бұл жолы баған атауы тағайындалмаған, сондықтан оны өзіңіз орнатуыңыз керек. Ол үшін функцияға атаулар параметрін қосасыз:
pd.read_csv('pandas_tutorial_read.csv', delimiter=';',
names=['my_datetime', 'event', 'country', 'user_id', 'source', 'topic'])
Енді көрнекі кейіпке келді. Енді .csv файлы pandas DataFrame-ге толықтай жүктелді.
Ескерту: тағы бір балама әдіс бар. Сіз .csv файлды URL арқылы тікелей жүктей аласыз. Мұндай жағдайда файлдағы мәліметтер мәліметтер серверіне жүктелмейді.
pd.read_csv(
'https://pythonru.com/downloads/pandas_tutorial_read.csv',
delimiter=';',
names=['my_datetime', 'event', 'country',
'user_id', 'source', 'topic']
)
Ескерту: Егер сіз осы жиынтықта не бар екенін білгіңіз келсе, онда бұл саяхат блогындағы мәліметтер журналы. Ал, бағандардың атауларынан-ақ ол жерде қандай ақпарат сақталғандығын аңғаруға болады.
Pandas-та data frame-нен мәліметтерді таңдау
Достарыңызбен бөлісу: |