Искусственный интеллект раскрыл секретные архивы Ватикана

Ватиканские секретные архивы — одна из величайших исторических коллекций в мире.

Расположенный в стенах Ватикана, рядом с Апостольской библиотекой и к северу от Сикстинской капеллы, архив вмещает 53 миллионов полкок возрастом в более чем 12 веков. Он включает в себя такие драгоценные камни, как папский бык Мартина Лютера и просьбы о помощи, которые Мария Королева шотландцев послала Папе Сикстусу V. По размеру и объему коллекция огромна.

Тем не менее, VSA не очень нравится современным ученым, потому что она абсолютно недоступна. Из этих 53 миллионов всего несколько страниц были отсканированы и доступны в Интернете. Еще меньше страниц были переведены в компьютерный текст и доступны для поиска. Если вы хотите ознакомиться с чем-либо из архива, вам необходимо обратиться за специальным доступом, пройти весь путь до Рима и прочесть каждую страницу, сканировать и фотографировать нельзя. Но новый проект мог бы изменить все это.

Известный как In Codice Ratio, ученый использует комбинацию искусственного интеллекта и программного обеспечения оптического распознавания символов (OCR), чтобы очистить все эти забытые тексты и сделать их транскрипты доступными. В случае успеха технология также может открыть неисчислимые количества других документов в исторических архивах по всему миру. OCR используется для сканирования книг и других печатных документов в течение многих лет, но это не очень подходит для материала в Секретных архивах. Традиционный OCR разбивает слова на ряд букв-изображений, ища промежутки между буквами. Затем он сравнивает каждое письмо-изображение с банком букв в его памяти. После определения того, какая буква наилучшим образом соответствует изображению, программное обеспечение переводит букву в компьютерный код (ASCII) и тем самым делает текст доступным для поиска. Однако этот процесс работает только с набранным текстом. Проблема заключается в том, что большинство старых текстов Ватикана написаны вручную.

Некоторые компьютерные ученые попытались обойти эту проблему, разработав OCR для распознавания целых слов вместо букв.

По материалам gadgetblog