на сайт факультета информатики ТГУ
на сайт Томского государственного университета
  


НАЧАЛО БИБЛИОТЕКА ДИПЛОМНЫЕ РАБОТЫ

     ДИПЛОМНЫЕ РАБОТЫ



Морогин С.В.

Извлечение математической нотации из документов формата PDF - Томск: Томск. гос. ун-т. Факультет информатики, 2010.- 42 с.

http://www.inf.tsu.ru/library/DiplomaWorks/CompScience/2010/Morogin/diplom.pdf


Объект исследования – математическая нотация, алгоритмы извлечения данных из PDF, методы сегментации строк и математических формул.

Цель работы – исследование и реализация известных методов извлечения информации из PDF и сегментации математических формул, улучшение существующих подходов извлечения формул, реализация системы сегментации математической нотации и интеграция с системой парсинга.

Результат работы – рассмотрены подходы к извлечению составных компонент математических формул из документов формата PDF, предложен ряд усовершенствований процесса извлечения, изучены основные методы сегментации математических формул, реализована система извлечения и сегментации математической нотации из PDF на основе модифицированного алгоритма Фейтмана, произведена интеграция с системой парсинга математической нотации DRACULAE, которая подтвердила пригодность извлеченных данных для пространственного анализа математическими парсерами.

Текст PDF
Объем 945 Кбайт

Copyright © 2010 Факультет информатики Томского государственного университета  
  Служба сервера