Студентам удалось расшифровать фрагмент из древнего свитка, обугленного 2000 лет назад при извержении Везувия, с помощью машинного обучения

Двум студентам, участникам конкурса «Первые письма» проекта Vesuvius Challenge, удалось независимо друг от друга расшифровать фрагмент из геркуланумского папируса. Этому предшествовала работа и открытия других участников проекта.

Начало проекта

Геркуланумские папирусы — древние свитки, хранившиеся в библиотеке частной виллы вблизи Помпеи, — были погребены в пепле и лаве в результате извержения Везувия в 79 году нашей эры. Почти две тысячи лет эта единственная сохранившаяся библиотека античности была погребена под 20-метровым слоем вулканической грязи. В 1700-х годах их раскопали, и хотя они в какой-то мере сохранились благодаря извержению, открыть и прочитать их невозможно, при неправильном обращении свитки превратились бы в пыль.

В 2019 году профессор Брент Силз из лаборатории EduceLab Университета Кентукки получил 3d-изображение геркуланумских свитков, создав трёхмерные томограммы с разрешением до 4 мкм. Аспирант профессора Силса, Стивен Парсонс, работал над обнаружением чернил на КТ-сканах с помощью моделей машинного обучения и добился успеха в работе с отделенными фрагментами.

Этот успех привлёк внимание технологических предпринимателей Ната Фридмана и Дэниела Гросса, которые организовали проект Vesuvius Challenge с конкурсом для ускорения этого прогресса. Они объявили открытый конкурс в марте 2023 году и наряду с главным призом в $700 тысяч объявили, что несколько призов дадут за разработку инструментов и методов с открытым исходным кодом.

В начале лета к команде изучавших свиток присоединились несколько аннотаторов. Они начали картировать трёхмерную структуру свитка ик июлю сегментировали и виртуально «сплющили» сотни квадратных сантиметров папируса.

Не трещины, а чернила

В начале августа участник конкурса, архитектор ПО в Лаборатории реактивного движения NASA, Кейси Хэндмер написал в блоге сообщение о своём открытии «узора из трещин», похожего на следы чернил. Он обнаружил этот узор, глядя на сегментированные томограммы свитка в течение нескольких часов подряд. Стивен Парсонс и раньше видел прямые свидетельства наличия чернил в отделившихся кусочках папируса, но внутри свитка их ещё не наблюдали. Кейси стал первым человеком за последние 2000 лет, обнаружившим чернила и текст внутри нераспечатанного свитка.

Модель Люка Фарритора

После находки Хэндмера участники конкурса стали активно искать ещё похожие трещины, но это оказалось сложной задачей. Студент колледжа и стажер SpaceX Люк Фарритор узнал о конкурсе «Везувий» из подкаста. Он увидел, что модель трещин Кейси обсуждается в Discord, и начал тренировать модель машинного обучения на изучение трещин. С каждой новой найденной трещинкой модель улучшалась. Фарритор нашел несколько десятков чернильных штрихов и несколько целых букв, которые можно было пометить и использовать в качестве обучающих данных.

Вскоре очертания стали складываться в буквы и похожи на настоящие слова. Тогда Фарритор подал заявку на участие в конкурсе «Первые буквы», в рамках которого участники должны были найти не менее 10 букв на площади 4 см2. Вот поданная им работа:

Профессор Силс показал это изображение группе папирологов проекта Vesuvius Challenge — учёных, специализирующихся на дешифровке древних текстов и те сразу же смогли прочитать слово porphyras, несмотря на то, что буквы были нечеткими. Оно означает «пурпурный» и встречается в древних текстах довольно редко.

Каждый квадрат обозначает одно мнение специалиста. Зеленый: более 80% уверенности в том, какая это буква, желтый — 50-80% уверенности, красный — менее 50% уверенности

Каждый квадрат обозначает одно мнение специалиста. Зеленый: более 80% уверенности в том, какая это буква, желтый — 50-80% уверенности, красный — менее 50% уверенности

Модель Юссефа Надера

Тем временем другой участник конкурса, Юссеф Надер, египетский аспирант, изучающий биоробототехнику в Берлине, использовал другой подход. Вдохновленный результатами Хэндмера и Фарритора, он проанализировал работы победителей одного из конкурсов Kaggle по распознаванию чернил, в частности — изучил совершенствование подхода Стивена Парсонса (упомянутому выше) к машинному обучению на отдельных фрагментах. Юссеф также подал свою заявку на премию «Первые письма». Он увидел первые результаты Люка, которыми тот делился в Twitter и Discord, и решил сфокусироваться на той же области в рамках свитка. Он нашел похожие на буквы символы, присвоил им метки.

Модели, обученные на этих метках, были способны обнаруживать чернила внутри свитка. В итоге Юссефу удалось получить изображение, представленное ниже.

Папирологи пришли к выводу, что их догадки были верны, а также начали строить предположения о возможных словах выше (ανυοντα / ANYONTA, «достижение») и ниже (ομοιων / OMOIωN, «подобный»). Юссеф Надер получили приз в $10 тысяч.

Кроме того, модель Юссефа создала новое изображение свитка — значительное по размеру и чёткости. На этом изображении хорошо видны четыре с половиной колонки текста, разделенные полями. Теперь видно гораздо больше букв, хотя не все из них можно сразу разобрать. Сейчас их изучают папирологи.