Дипломдық ЖҰмыс мамандығы 5В100200 «Ақпараттық қауіпсіздік жүйелері»



жүктеу 0,94 Mb.
бет9/13
Дата29.04.2022
өлшемі0,94 Mb.
#38353
түріДиплом
1   ...   5   6   7   8   9   10   11   12   13
Диплом испр

Мәтіндерді таңбалау

Мәтінді классификация жасайтын модельді оқыту үшін ең алдымен оны таңбалау керек. Біз спам емес мәтінді 0, спамды 1 деп таңбаладық.



Деректерді алдын-ала өңдеу

Деректер таңбалар, сілтемелер және тыныс белгілері түріндегі «шу» немесе «керексіз деректерден» тұратын өңделмеген түрінде болады. Деректердегі керек емес артық символдар модель үшін пайдасыз және классификаторлардың көрсеткішін төмендетуі мүмкін. Мұндай қажетсіз символдарды корпустан алып тастау үшін, біз төменде сипатталған деректерді өңдеудің бірнеше тапсырмаларын орындаймыз.



Токенизация – мәтінді сөздердің сегментіне түрлендіру. Модель үшін қажетсіз символдарды жою және сөздердің векторын құру үшін әрбір мәтінді токендерге бөлдік. Сөздердің токенизациясы (кейде сегментациясы) дегеніміз - сөйлемдерді құрамдас сөздерге бөлу процесі. Ағылшын және басқа да көптеген тілдерде бос орын (пробел) - сөз бөлгіш болып табылады.

Сөздерді кіші регистрге ауыстыру – әр түрлі регистрдегі(үлкен немесе кіші) бірдей сөздердің қайталануын болдырмау үшін барлық токенді кіші регистрге түрлендірдік.

Бізге мәтіннің мағыналы бөлігі қажет, сондықтан тыныс белгілерін, алфавитке жатпайтын таңбаларды, сандарды алып тастадық.

Мәтінде тежеуіш сөздер, яғни бұл сөзді алып тастағанымен сөйлемнің мағынасы өзгермейтін сөздер, кездеседі. Бұндай сөздер оқу уақытын ұзартады және модельдің дәлдік көрсеткішін төмендетуі мүмкін. Сондықтан тежеуіш сөздерді алып тастадық.

Стемминг – сөздерден аффикстерді (жұрнақтар мен жалғауларды) жойып, сөзді бір формаға келтіру.


    1. жүктеу 0,94 Mb.

      Достарыңызбен бөлісу:
1   ...   5   6   7   8   9   10   11   12   13




©g.engime.org 2024
әкімшілігінің қараңыз

    Басты бет
рсетілетін қызмет
халықаралық қаржы
Астана халықаралық
қызмет регламенті
бекіту туралы
туралы ережені
орталығы туралы
субсидиялау мемлекеттік
кеңес туралы
ніндегі кеңес
орталығын басқару
қаржы орталығын
қаржы орталығы
құрамын бекіту
неркәсіптік кешен
міндетті құпия
болуына ерікті
тексерілу мемлекеттік
медициналық тексерілу
құпия медициналық
ерікті анонимді
Бастауыш тәлім
қатысуға жолдамалар
қызметшілері арасындағы
академиялық демалыс
алушыларға академиялық
білім алушыларға
ұйымдарында білім
туралы хабарландыру
конкурс туралы
мемлекеттік қызметшілері
мемлекеттік әкімшілік
органдардың мемлекеттік
мемлекеттік органдардың
барлық мемлекеттік
арналған барлық
орналасуға арналған
лауазымына орналасуға
әкімшілік лауазымына
инфекцияның болуына
жәрдемдесудің белсенді
шараларына қатысуға
саласындағы дайындаушы
ленген қосылған
шегінде бюджетке
салығы шегінде
есептелген қосылған
ұйымдарға есептелген
дайындаушы ұйымдарға
кешен саласындағы
сомасын субсидиялау