Алгоритмы автоматически собирали релевантные публикации из открытых источников. Система генерировала целевые web-запросы, что позволило быстро находить и скачивать исследования без ручного перебора тысяч страниц.
Все документы приводились к единому формату (Markdown), нерелевантные разделы удалялись, статьи объединялись в единый массив данных. В результате был получен структурированный датасет, готовый для аналитики.
Модели анализировали макет каждого документа — от заголовков и параграфов до таблиц и иллюстраций.
Были удалены шумовые элементы (колонтитулы, нумерация страниц),
Восстанавливалась структура таблиц (CSV),
Воспроизводилась иерархия разделов (JSON).
Система построена поэтапно: