Студентам удалось расшифровать фрагмент из древнего свитка, обугленного 2000 лет назад при извержении Везувия, с помощью машинного обучения

16.10.2023 Резонанс

Двум студентам, участникам конкурса «Первые письма» проекта Vesuvius Challenge, удалось независимо друг от друга расшифровать фрагмент из геркуланумского папируса. Этому предшествовала работа и открытия других участников проекта.

Начало проекта

Геркуланумские папирусы — древние свитки, хранившиеся в библиотеке частной виллы вблизи Помпеи, — были погребены в пепле и лаве в результате извержения Везувия в 79 году нашей эры. Почти две тысячи лет эта единственная сохранившаяся библиотека античности была погребена под 20-метровым слоем вулканической грязи. В 1700-х годах их раскопали, и хотя они в какой-то мере сохранились благодаря извержению, открыть и прочитать их невозможно, при неправильном обращении свитки превратились бы в пыль.

В 2019 году профессор Брент Силз из лаборатории EduceLab Университета Кентукки получил 3d-изображение геркуланумских свитков, создав трёхмерные томограммы с разрешением до 4 мкм. Аспирант профессора Силса, Стивен Парсонс, работал над обнаружением чернил на КТ-сканах с помощью моделей машинного обучения и добился успеха в работе с отделенными фрагментами.

Этот успех привлёк внимание технологических предпринимателей Ната Фридмана и Дэниела Гросса, которые организовали проект Vesuvius Challenge с конкурсом для ускорения этого прогресса. Они объявили открытый конкурс в марте 2023 году и наряду с главным призом в $700 тысяч объявили, что несколько призов дадут за разработку инструментов и методов с открытым исходным кодом.

В начале лета к команде изучавших свиток присоединились несколько аннотаторов. Они начали картировать трёхмерную структуру свитка ик июлю сегментировали и виртуально «сплющили» сотни квадратных сантиметров папируса.

Не трещины, а чернила

В начале августа участник конкурса, архитектор ПО в Лаборатории реактивного движения NASA, Кейси Хэндмер написал в блоге сообщение о своём открытии «узора из трещин», похожего на следы чернил. Он обнаружил этот узор, глядя на сегментированные томограммы свитка в течение нескольких часов подряд. Стивен Парсонс и раньше видел прямые свидетельства наличия чернил в отделившихся кусочках папируса, но внутри свитка их ещё не наблюдали. Кейси стал первым человеком за последние 2000 лет, обнаружившим чернила и текст внутри нераспечатанного свитка.

Модель Люка Фарритора

После находки Хэндмера участники конкурса стали активно искать ещё похожие трещины, но это оказалось сложной задачей. Студент колледжа и стажер SpaceX Люк Фарритор узнал о конкурсе «Везувий» из подкаста. Он увидел, что модель трещин Кейси обсуждается в Discord, и начал тренировать модель машинного обучения на изучение трещин. С каждой новой найденной трещинкой модель улучшалась. Фарритор нашел несколько десятков чернильных штрихов и несколько целых букв, которые можно было пометить и использовать в качестве обучающих данных.

Вскоре очертания стали складываться в буквы и похожи на настоящие слова. Тогда Фарритор подал заявку на участие в конкурсе «Первые буквы», в рамках которого участники должны были найти не менее 10 букв на площади 4 см2. Вот поданная им работа:

Профессор Силс показал это изображение группе папирологов проекта Vesuvius Challenge — учёных, специализирующихся на дешифровке древних текстов и те сразу же смогли прочитать слово porphyras, несмотря на то, что буквы были нечеткими. Оно означает «пурпурный» и встречается в древних текстах довольно редко.

Каждый квадрат обозначает одно мнение специалиста. Зеленый: более 80% уверенности в том, какая это буква, желтый — 50-80% уверенности, красный — менее 50% уверенности

Модель Юссефа Надера

Тем временем другой участник конкурса, Юссеф Надер, египетский аспирант, изучающий биоробототехнику в Берлине, использовал другой подход. Вдохновленный результатами Хэндмера и Фарритора, он проанализировал работы победителей одного из конкурсов Kaggle по распознаванию чернил, в частности — изучил совершенствование подхода Стивена Парсонса (упомянутому выше) к машинному обучению на отдельных фрагментах. Юссеф также подал свою заявку на премию «Первые письма». Он увидел первые результаты Люка, которыми тот делился в Twitter и Discord, и решил сфокусироваться на той же области в рамках свитка. Он нашел похожие на буквы символы, присвоил им метки.

Модели, обученные на этих метках, были способны обнаруживать чернила внутри свитка. В итоге Юссефу удалось получить изображение, представленное ниже.

Папирологи пришли к выводу, что их догадки были верны, а также начали строить предположения о возможных словах выше (ανυοντα / ANYONTA, «достижение») и ниже (ομοιων / OMOIωN, «подобный»). Юссеф Надер получили приз в $10 тысяч.

Кроме того, модель Юссефа создала новое изображение свитка — значительное по размеру и чёткости. На этом изображении хорошо видны четыре с половиной колонки текста, разделенные полями. Теперь видно гораздо больше букв, хотя не все из них можно сразу разобрать. Сейчас их изучают папирологи.

Студентам удалось расшифровать фрагмент из древнего свитка, обугленного 2000 лет назад при извержении Везувия, с помощью машинного обучения

Каждый квадрат обозначает одно мнение специалиста. Зеленый: более 80% уверенности в том, какая это буква, желтый — 50-80% уверенности, красный — менее 50% уверенности

Олег Тони и «последнее китайское» от Ротенбергов

Анна Лопунова - коррупционерша из Россельхознадзора

Константин Антонов и его богатство за год власти

«Підласа-гейт»: «конфлікт інтересів», бізнес-зв’язки і боротьба з «майданчиками Яценка»

Миллиарды черпали полковником

Замыленный «Пейзаж»: перед кем «рисуется» юрист Гончаров?

Где не сможет Гуцериев – там поможет Немерюк?

«Меркатор холдинг» - прачечная для миллиардов из бюджета Москвы

Financial Consulting Group

Китайский связной в Россетях

Компромат1: Загадочное Оружие, Которое Угрожает Вашей Приватности – Все О, Чем Вы Не Знали!

Компромат: Темная Сторона Информационной Войны - Разгадываем Загадку Скрытых Секретов!

Компромат1: Темные Тайны и Шокирующие Раскопки - Что Скрывается За Загадочным Миром Компромата?

Компромат1: Тайная Опасность, Которую Вы Никогда Не Ожидали!

Компромат1: Что Вы НЕ Знали и Как Это Вас Затронет

Скандальный Секрет: Раскрываем Загадочный Мир Компромата

В приемной ФСБ на Кузнецком мосту задержан мужчина с двумя ножами

Гриф Совершенно Секретно: Портал Тайн и Загадок

Kompromat1: Портал Секретных Материалов - Преимущества и Тайные Дел