Конвертер PDF для журнала Audar

Задача

Создание програмного обеспечения по конвертации номеров журналов из PDF с сохранением всех элементов содержания

Клиент

Издательский Дом «Аюдар Пресс» − один из лидеров на рынке профессиональной бухгалтерской литературы в России. Издательство выпускает около 40 журналов, посвященных всем аспектам бухгалтерской деятельности.

Для разработки парсера, конвертирующего статьи из PDF-формата, мы написали скрипт на языке Python, который, используя сложные настраивающиеся алгоритмы, определяет начало и конец статьи, ее заголовок, автора, сноски и подзаголовки. По собранным статьям скрипт создает содержание журнала.

В результате, при чтении журнала клиент может перемещаться между статьями как с помощью автоматически сгенерированного содержания номера, так и просто перелистывая страницы:

И, что самое главное, благодаря созданной нами программе – конвертатору PDF в тексты, клиенты сайта могут читать каждую отдельную статью в красивом сформатированном виде, разделеную на все элементы, которые присутствовали в PDF данного журнала.

Вот как видят статью после конвертации журнала из PDF видят пользователи, которые читают ее отдельно (в бесплатном варианте или после покупки). Статья полностью автоматически сформатирована для удобного чтения и распечатки:

В статье автоматически определены и выделены следующие элементы: Заголовок, подзаголовок, автор, выноска (выделенный блок), сноски в конце статьи, таблицы и списки.

Разработка программы по конвертации журналов из pdf заняла около полугода. В результате была создано программное обеспечение, которое позволяет в полностью автоматическом режиме конвертировать журналы или газеты из pdf и продавать их электронные версии целиком или по статьям, а также производить поиск и маркирование текста в содержании файлов. Программа может конвертировать по 1000 файлов в сутки на сервере стандартной конфигурации, что обеспечивает производительность в 30000 выпусков журналов и газет в месяц.

Другие проекты
Назад к портфолио