Кейсы
Ассистент инженера
/
Ассистент, который собирает
и структурирует геологические исследования из открытых источников
Решение
ИИ-система сбора и предобработки геологических публикаций
Извлечение текста, таблиц и иллюстраций
Преобразование документов в CSV, JSON, Markdown
Сохранение гео-онтологических сущностей
Формирование структурированного датасета для построения прогнозных моделей
Особенности
Возможности
Контекст
Геологоразведка опирается на обширные массивы научных публикаций, отчётов и исследований, большая часть которых представлена в неструктурированном виде: текстовые документы, таблицы, иллюстрации. Ручной поиск и обработка таких данных занимает значительное время и требует большого количества специалистов.

Для эффективного анализа и построения прогнозных моделей необходимо автоматизировать процесс извлечения информации и её структурирования.
Цель
Автоматизировать сбор, распознавание и структурирование геологических исследований из открытых источников для последующего анализа и оценки перспектив нефтегазоносных провинций.
Задачи
Автоматизировать поиск релевантных публикаций на специализированных ресурсах и в поисковых системах.

Реализовать распознавание структуры документов: текст, таблицы, иллюстрации, сноски.

Преобразовать неструктурированные данные в унифицированный формат для дальнейшей обработки.

Сформировать готовую аналитическую базу с сохранением гео-онтологической информации (бассейны, формации, геохронология).
Решение
Алгоритмы автоматически собирали релевантные публикации из открытых источников. Система генерировала целевые web-запросы, что позволило быстро находить и скачивать исследования без ручного перебора тысяч страниц.
Все документы приводились к единому формату (Markdown), нерелевантные разделы удалялись, статьи объединялись в единый массив данных. В результате был получен структурированный датасет, готовый для аналитики.
Модели анализировали макет каждого документа — от заголовков и параграфов до таблиц и иллюстраций.

Были удалены шумовые элементы (колонтитулы, нумерация страниц),

Восстанавливалась структура таблиц (CSV),

Воспроизводилась иерархия разделов (JSON).

Система построена поэтапно:
Поиск данных
1
Распознавание
2
Предобработка
3
Как работает система
Находит публикации по геологоразведке в открытых источниках.
Преобразует их в структурированный формат (CSV, JSON, Markdown).
Сохраняет ключевые геологические сущности (нефтегазоносные бассейны, формации, геохронология).
Формирует данные, готовые для построения аналитических моделей и расчёта перспектив разработки.
1
2
3
4
Итоги проекта
Очень бедная
Бедная
Средняя
Богатая
Очень богатая
РК1-2
75%
100%
33%
67%
100%
40%
60%
75%
43%
33%
33%
67%
67%
100%
40%
20%
40%
25%
57%
33%
67%
20%
75%
Класс НГМП по ТОС
Стадия зрелости
Тип
керогена
43%
67%
100%
33%
80%
43%
14%
25%
РК3
МК1-МК3
МК4-МК5
АК
I
II
II/III
III
IV
25%
14%
71%
14%
Результаты экстракции и анализа данных пиролиза НГМП по южной части острова Сахалин
Результаты экстракции и анализа геологических данных по НГМП и породам-коллекторам
Исследуемый участок
Исследуемый участок
Сахалин
Восточная Сибирь