Білім берудегі ғылыми негіз ретінде саналатын зерттеу жұмыстарын жазуда тиісті термин немесе анықтаманы таңдаумен байланысты кейбір қателіктер орын алады. Бұл зерттеуде word embedding қолдану арқылы мұндай мәселені шешу және ғылыми мақалаларды жазу пәнің оқытқанда пайдалану болатындығы туралы айтылады. Word embedding – сөз көрінісінің формасы, мұнда бір сөздің векторы және оның коор- динаттары болады. Жақын мағынасы бар сөздер ұқсас бағытқа ие бола тұра лексикалық тіркесулерді көрсетеді. Лексикалық қатынастарды есептеу үшін екі сөздің векторлары арасындағы бұрыштың косинусы қарастырылады. Тіркесулері көп сөз тіркестерінің мәні 1-ге тең. Ал лексикалық жағынан сәйкес келмейтін сөздер шамамен -1 мәні болуы керек.
Жүйені тексеру үшін Қазақстан Республикасы Конституциясының мәтіні пайдаланылды. Атап айтқанда, Конституция бабының мағынасына қатысы жоқ сөздер енгізіліп, жүйе бұл сөздерді анықтауы керек еді. Біраз сөздерді анықтағанда жүйе жоғары дәлдікті көрсетті, бірақ кейбір сөздерді төмен дәлдікпен тапты. Мұндай фактор, енгізілген сөздер мағынасы жағынан байланысты болмаса да, олар көршілерімен лексикалық тіркесуі болуы мүмкін болғандықтан көрсетілді.
Бұл зерттеу Қазақстан Республикасы Білім және ғылым министрлігінің «Отандық білім беруді модернизациялау жағдайында көптілді IT маманының құзыретті инновациялық моделін әзірлеу және енгізу» атты гранттық жобасы аясында жүзеге асырылды.