Сөздерді верторларға түрлендіру
Модельге математикалық және статистикалық зерттеулер жүргізу үшін машинаны оқыту алгоритміне функция векторы түрінде сандық сурет қажет. Векторизациялау кезінде Bag of Words және TF-IDF пайдаланылған. Bag of Words моделінде мәтін грамматика мен тіпті сөздердің ретін ескермей, бірақ сөздердің жиілігін сақтай отырып сөздердің қапшығы ретінде ұсынылады. Бұл модел мәтінді классификациялау әдістерінде жиі қолданылады, мұнда әр сөздің кездесуі (жиілігі) классификаторды оқытатын функция ретінде қолданылады. TF-IDF – мәтін контекстіндегі сөздің маңыздылығын бағалау тәсілі болып табылады.
Машиналық оқыту алгоритмдері шикі мәтінмен тікелей жұмыс істей алмайды, сондықтан мәтінді сандар жиынына (векторларға) айналдыру керек.
Бұл векторизация деп аталады.
Достарыңызбен бөлісу: |