Дипломдық ЖҰмыс мамандығы 5В100200 «Ақпараттық қауіпсіздік жүйелері»



жүктеу 0,94 Mb.
бет11/13
Дата29.04.2022
өлшемі0,94 Mb.
#38353
түріДиплом
1   ...   5   6   7   8   9   10   11   12   13
Диплом испр

Bag of words және TF-IDF




Сөздер қапшығы - бұл мәтінмен жұмыс жасау кезінде қолданылатын танымал және қарапайым сөздердің векторлық функцияларын алу әдісі. Ол мәтіндегі әр сөздің кездесуін сипаттайды.

Үлгіні пайдалану үшін бізге:



  1. Белгілі сөздердің (таңбалауыштардың) сөздігін анықтау.

  2. Белгілі сөздердің қатысу дәрежесін таңдау керек.

Сөздердің тәртібі немесе құрылымы туралы кез-келген ақпарат еленбейді. Сондықтан оны сөздердің қапшығы деп атайды. Бұл модель таныс сөздің құжатта кездесетінін білуге тырысады, бірақ оның нақты қай жерде кездесетінін білмейді [13].

Бұл мәтіндегі барлық сөздерді санауға мүмкіндік беретін жиі қолданылатын модель. Негізінде, грамматика мен сөз тәртібін ескермей, сөйлем немесе құжат үшін кіріс матрицасын жасайды. Бұл сөз жиіліктері немесе оқиғалар классификаторды оқыту үшін қолданылады [14].

Мысал:

Осы модельді құру қадамдарын қарастырамыз. Модель қалай жұмыс істейтінін түсіну үшін біз тек 4 сөйлем қолданамыз. Шынайы өмірде сіз көбірек мәліметтерге тап боласыз. Бұл біздің деректеріміз деп ойлаңыз, біз оны массив ретінде жүктегіміз келеді:

I like this movie, it's funny.

I hate this movie.

This was awesome! I like it. Nice one. I love it.

Ол үшін файлды оқып, жолдар бойынша бөлу жеткілікті:

Нәтижесінде: ["I like this movie, it's funny.", 'I hate this movie.', 'This was awesome! I like it.', 'Nice one. I love it.']

Біз жүктелген 4 сөйлемнен барлық ерекше сөздерді жинаймыз, олар регистр, тыныс белгілері мен бір таңбалы таңбаларды елемейді. Бұл біздің сөздік (белгілі сөздер) болады.

Сөздік жасау үшін sklearn кітапханасынан CountVectorizer класын пайдалануға болады.

Әрі қарай, мәтіндегі сөздерді бағалау керек. Бұл қадамда біздің мақсатымыз шикі мәтінді сандар жиынына айналдыру. Осыдан кейін біз бұл жиынтықтарды машиналық оқыту моделіне енгізу ретінде қолданамыз. Скорингтің қарапайым әдісі - сөздердің болуын атап өту, яғни сөз бар болса 1 қойып, егер ол жоқ болса 0 қою.

Енді біз жоғарыда аталған CountVectorizer класын қолдана отырып, сөздер қапшығын жасай аламыз.

Нәтижесінде:





12-сурет. Bag of words моделінің нәтижесі

TF-IDF (term frequency — inverse document frequency) - жинақ немесе корпустың бөлігі болып табылатын құжаттағы сөздің маңыздылығын бағалау үшін қолданатын статистикалық шара.

TF-IDF бойынша скоринг құжатта сөздің пайда болу жиілігіне сәйкес өседі, бірақ бұл осы сөзді қамтитын құжаттар санына сәйкес келеді [15]. Y құжатындағы Х сөзіне скоринг формуласы:





13-сурет. TF-IDF формуласы

TF (term frequency — сөздердің жиілігі) - бұл мәтіндегі сөздің кездесу санының құжаттағы сөздердің жалпы санына қатынасы.



IDF (inverse document frequency — құжаттың кері жиілігі) - бұл құжаттар жинағында белгілі бір сөз пайда болу жиілігіне кері әдісі.



Нәтижес


санының артуына байланысты precision-ның төмендеуіне әкеледі. Егер сіз классификация моделін бұрмалап, оны «пессимистік» етіп жасасаңыз, мысалы, нәтижелерді қатаң түрде сүзгілесеңіз, precision-ның жоғарылауымен бұл дұрыс жауаптардың белгілі бір санының қабылданбауына байланысты бір уақытта recall-дың төмендеуіне әкеледі.

F1 score метрикасы, егер P = R = 100% болса, өзінің максимумы 1-ге (100%) жетеді. F1 score мәні - бұл жүйенің ең көп таралған өлшемдерінің бірі.

Классификация мәселесі үшін F1 score-ды есептеу кезінде екі негізгі тәсіл бар:


  • Жиынтық F1 score: біз барлық сыныптар бойынша нәтижелерді бір кестеге біріктіреміз, содан кейін F1 score өлшемі есептеледі.

  • Орташа F1 score: әр сынып үшін біз жеке үлестіру кестесін және F1 score мәнін қалыптастырамыз, содан кейін барлық сыныптар үшін қарапайым арифметикалық орташа мән аламыз.



    1. жүктеу 0,94 Mb.

      Достарыңызбен бөлісу:
1   ...   5   6   7   8   9   10   11   12   13




©g.engime.org 2024
әкімшілігінің қараңыз

    Басты бет
рсетілетін қызмет
халықаралық қаржы
Астана халықаралық
қызмет регламенті
бекіту туралы
туралы ережені
орталығы туралы
субсидиялау мемлекеттік
кеңес туралы
ніндегі кеңес
орталығын басқару
қаржы орталығын
қаржы орталығы
құрамын бекіту
неркәсіптік кешен
міндетті құпия
болуына ерікті
тексерілу мемлекеттік
медициналық тексерілу
құпия медициналық
ерікті анонимді
Бастауыш тәлім
қатысуға жолдамалар
қызметшілері арасындағы
академиялық демалыс
алушыларға академиялық
білім алушыларға
ұйымдарында білім
туралы хабарландыру
конкурс туралы
мемлекеттік қызметшілері
мемлекеттік әкімшілік
органдардың мемлекеттік
мемлекеттік органдардың
барлық мемлекеттік
арналған барлық
орналасуға арналған
лауазымына орналасуға
әкімшілік лауазымына
инфекцияның болуына
жәрдемдесудің белсенді
шараларына қатысуға
саласындағы дайындаушы
ленген қосылған
шегінде бюджетке
салығы шегінде
есептелген қосылған
ұйымдарға есептелген
дайындаушы ұйымдарға
кешен саласындағы
сомасын субсидиялау