П.Е. Велихов

Использование открытых баз данных как семантических словарей для автоматической обработки текстов: система Texterra

 

Описана система автоматической обработки текстов Texterra, использующая меру семантической близости между статьями открытых баз данных, таких как Википедия. Детально описаны модули системы, которые отвечают за усвоение данных Википедии, предварительную обработку текстов, обработку графа ссылок Википедии и классификацию и информационный поиск в коллекциях произвольных документов с использованием Википедии, как семантического словаря.

 

КЛЮЧЕВЫЕ СЛОВА: обработка текста, классификация, полнотекстовой поиск, семантическая близость