gCoS

Кейсы

Ассистент инженера

/

Ассистент, который собирает
и структурирует геологические исследования из открытых источников

Решение

ИИ-система сбора и предобработки геологических публикаций

Извлечение текста, таблиц и иллюстраций
Преобразование документов в CSV, JSON, Markdown
Сохранение гео-онтологических сущностей

Формирование структурированного датасета для построения прогнозных моделей

Особенности

Возможности

Контекст

Геологоразведка опирается на обширные массивы научных публикаций, отчётов и исследований, большая часть которых представлена в неструктурированном виде: текстовые документы, таблицы, иллюстрации. Ручной поиск и обработка таких данных занимает значительное время и требует большого количества специалистов.

Для эффективного анализа и построения прогнозных моделей необходимо автоматизировать процесс извлечения информации и её структурирования.

Цель

Автоматизировать сбор, распознавание и структурирование геологических исследований из открытых источников для последующего анализа и оценки перспектив нефтегазоносных провинций.

Задачи

Автоматизировать поиск релевантных публикаций на специализированных ресурсах и в поисковых системах.

Реализовать распознавание структуры документов: текст, таблицы, иллюстрации, сноски.

Преобразовать неструктурированные данные в унифицированный формат для дальнейшей обработки.

Сформировать готовую аналитическую базу с сохранением гео-онтологической информации (бассейны, формации, геохронология).

Решение

Алгоритмы автоматически собирали релевантные публикации из открытых источников. Система генерировала целевые web-запросы, что позволило быстро находить и скачивать исследования без ручного перебора тысяч страниц.

Все документы приводились к единому формату (Markdown), нерелевантные разделы удалялись, статьи объединялись в единый массив данных. В результате был получен структурированный датасет, готовый для аналитики.

Модели анализировали макет каждого документа — от заголовков и параграфов до таблиц и иллюстраций.

Были удалены шумовые элементы (колонтитулы, нумерация страниц),

Восстанавливалась структура таблиц (CSV),

Воспроизводилась иерархия разделов (JSON).

Система построена поэтапно:

Поиск данных

1

Распознавание

2

Предобработка

3

Как работает система

Находит публикации по геологоразведке в открытых источниках.

Преобразует их в структурированный формат (CSV, JSON, Markdown).

Сохраняет ключевые геологические сущности (нефтегазоносные бассейны, формации, геохронология).

Формирует данные, готовые для построения аналитических моделей и расчёта перспектив разработки.

1

2

3

4

Итоги проекта

Очень бедная

Бедная

Средняя

Богатая

Очень богатая

РК1-2

75%

100%

33%

67%

100%

40%

60%

75%

43%

33%

67%

100%

40%

20%

40%

25%

57%

33%

67%

20%

75%

Класс НГМП по ТОС

Стадия зрелости

Тип
керогена

43%

67%

100%

33%

80%

43%

14%

25%

РК3

МК1-МК3

МК4-МК5

АК

I

II

II/III

III

IV

25%

14%

71%

14%

Результаты экстракции и анализа данных пиролиза НГМП по южной части острова Сахалин

Результаты экстракции и анализа геологических данных по НГМП и породам-коллекторам

Исследуемый участок

Сахалин

Восточная Сибирь