Рецензия на книгу: Archives, Access and Artificial Intelligence. Working with Born-Digital and Digitized Archival Collections.(Ed.Lise Jaillant). Bielefeld University Press, 2022. 224 pp.
Оцифрованные коллекции газет и книг подтолкнули ученых к освоению новых методов изучения больших данных, которые теперь лучше сохраняются и управляются благодаря разработке программного обеспечения для получения открытого доступа к ним. С этими процессами связано немало проблем, позитивных прежде всего, потому что цифровые гуманитарные науки переместились с периферии в центр академического пространства. Тем не менее, на этом пути возникают сложности. Организации, занимающиеся культурным наследием, сталкиваются, по крайней мере, с тремя основными проблемами. Этим проблемам посвящена коллективная монография – результат исследований межуниверситетской команды, поддержанных финансированием Universität Bern и Loughborough University. В ней обсуждаются острые современные вопросы оцифровки архивных документов, принципов и методики работы с ними.
Монография состоит из двух частей, по три главы в каждом разделе. Первая часть, «Отбор, оценка, обнаружение и доступ», начинается с любопытного кейса, в котором анализируется применение искусственного интеллекта к фотоархиву в справочной библиотеке Frick Art Reference Library. Эта коллекция стала более доступной и пригодной для использования благодаря междисциплинарной команде, обладающей опытом в области компьютерных наук, истории искусств и других областях. Глава вторая, посвящённая веб-архивам, также междисциплинарна и в ней обсуждаются крупномасштабные цифровые коллекции. Глава третья посвящена дизайн-мышлению, ориентированному на метод решения социальных проблем. В нем аргументированно обоснована необходимость триумвирата исследователей, архивистов, математиков, работающих с искусственным интеллектом и другими инновационными методами.
Второй раздел – «Использование архивов: искусственный интеллект и новые знания» - начинается с главы о пользователях цифровых библиотек. Исследуя влияние электронного правового регулирования на британские академические депозитные библиотеки, Пол Гудинг утверждает, что прозрачные рабочие процессы и документирование данных должны занимать центральное место в исследованиях пользователей, в настоящее время часто опирающихся на такие инструменты, как Google Analytics. Они достаточно уязвимы. Качество данных о посетителях библиотек также оставляет желать лучшего. В пятой главе Мартин Пол Ив и его соавторы исследуют другой крупномасштабный набор данных: отчеты об академической экспертной оценке в журнале Sciences. Конфиденциальность этих отчетов и трудности доступа чрезвычайно усложняют проведение исследований. Описан набор препятствий, блокирующих использование нейронных сетей. А в шестой главе Тобиас Ходел фокусируется на рукописных текстах и их распознавании (HTR). Контролируемые подходы к глубокому обучению привели к поразительным результатам в расшифровке рукописного текста, но также и к новым проблемам, в том числе с точки зрения прозрачности и подотчётности. Ходел также представляет обзор машинного обучения, которое контролируется ООН и включает тематическое моделирование, используемое на огромных объёмах текстовых данных. Продолжая обсуждение HTR в седьмой главе, Мелисса Террас показывает, что эта технология сейчас преобразует доступ к нашему письменному прошлому, зафиксированному в рукописях. Основываясь на опросе пользователей HTR на платформе Transkribus, Terras освещает проблемы, возникающие при внедрении машинного обучения в исторические архивы. Транскрипции, созданные с помощью HTR, потребуют новых подходов как к истории, так и к вовлечению общественности, утверждает Террас, прежде чем давать рекомендации о том, как наилучшим образом поддержать сообщество, применяющее HTR к материалам культурного наследия. Наконец, послесловие Ричарда Марчиано очерчивает дальнейшие перспективы в сфере взаимодействия технологий и архивов для создания новых способов сохранения и обеспечения доступности к нашему коллективному прошлому.
Очевидно то дискуссионное поле, в котором находится рассматриваемый спектр тем.
Во-первых, объем цифровых архивов чрезвычайно затрудняет для архивистов оценку записей. Применение искусственного интеллекта и машинного обучения в архивной практике все еще находится на экспериментальной стадии, но мы становимся свидетелями того, как искусственный интеллект становится спутником и неотъемлемой частью архивных процессов. Чтобы справиться с огромным объемом и конфиденциальностью записей, архивистам пригодятся инструменты, помогающие им принимать решения об оценке и отборе материалов, когда они поступают на хранение.
Во-вторых, большинство цифровых коллекций в настоящее время закрыты по самым разным – мыслимым и немыслимым – причинам, включая технические проблемы, авторское право и защиту данных. Неважно, являются ли архивы цифровыми или нет, архивистам необходимо соблюдать баланс между индивидуальными правами и общественными интересами в контексте общего регулирования защиты данных. Авторы монографии справедливо считают, что вряд ли найдутся те, кто здравом уме и твердой памяти станут утверждать, что все данные, полученные в цифровом формате, должны быть разблокированы и находиться в открытом доступе. Тем не менее, важно признать, что «темные» архивы, или точнее «темные места» в архивах содержат огромное количество данных, необходимых ученым, включая переписку по электронной почте, черновики рукописей, цифровые фотографии и видео. Повышение доступности электронных архивов - приоритет для полного понимания нашего культурного наследия.
В-третьих, наука о данных и искусственный интеллект становятся важными инструментами, но очень немногие ученые, особенно в области гуманитарных наук, владеют этими методами исследования. Включают ли современные образовательные программы те необходимые навыки, без которых студентам сегодня не обойтись? Присутствие современных исследований не только в качестве внушительного библиографического списка, но и материала для живого диалога, - полезное свойство «Archives, Access and Artificial Intelligence», расширяющее информационный ресурс монографии. Так, к примеру, достаточно подробно представлен комплекс идей, сформулированный в книге Alan Turing Institute “The Challenges and Prospects of the Intersection of Humanities and Data Science” («Проблемы и перспективы на стыке гуманитарных наук и науки о данных»). По словам Barbara McGillivray и ее соавторов, «задача здесь состоит в том, чтобы найти способ обучать и повышать квалификацию исследователей-гуманитариев количественным и вычислительным методам, в то же время внедряя основные принципы этих методов в программы бакалавриата и магистратуры, чтобы выпускники гуманитарных специальностей были хорошо подготовлены к руководству проектами, а также потенциально могли сделать карьеру в области разработки исследовательского программного обеспечения и науки о данных для искусства и гуманитарных наук».
Автоматизация, доступ и искусственный интеллект становятся ключевыми инструментами для расшифровки нашей истории. Мы страдаем не от недостатка информации, а от слишком большого ее объема, нередко скрытого от нас. Доступ к секретным архивам – это узловая проблема, но ее необходимо рассматривать комплексно, дополняя методологиями, основанными на данных. Сквозные вопросы, которые ставятся в «Archives, Access and Artificial Intelligence», остры. Как мы можем предоставить более широкий доступ к архивам, которые в настоящее время закрыты для общественности? Какова роль автоматизации и искусственного интеллекта? Что означает «искусственный интеллект во благо» для архивных коллекций? В сочетании с другими технологиями искусственный интеллект может сделать цифровые архивы более полными и гарантировать подлинность записей. Утрата наследия – одна из самых болезненных тем, обсуждаемых сегодня в разных контекстах. Как известно, документы выбрасывают, уничтожают намеренно или по ошибке случайно. Оценка, то есть отбор записей, является центральным аспектом архивного процесса. В книге «Современные архивы: принципы и методы» (1956) американский архивист Т. Р. Шелленберг утверждал, что запись имеет “первичную ценность” для создателя, но может также иметь "вторичную ценность" (в качестве доказательства или информации) для историков и будущих пользователей записей за пределами учреждения-источника. «У архивариусов должно быть не только право, но и обязанность проверять все факты, которые правительственные учреждения предлагают уничтожить».
В эпоху цифровых технологий просмотр документов вручную стал практически невозможным. Архивистам приходится иметь дело с огромным количеством единиц хранения, причем рассредоточенных в разных местах. И авторы монографии «Archives, Access and Artificial Intelligence» анализируют серьезную современную угрозу: внедрение дешевых облачных технологий, смартфонов и других мобильных устройств привело к росту «теневых ИТ». Например, у государственных служащих может возникнуть соблазн использовать личные учетные записи электронной почты, приватные WhatsApp, Skype, Facebook, Twitter и другие платформы, чтобы обмениваться информацией со своими коллегами. Теневой ИТ многократно увеличивает риск утечки данных. Так, в Великобритании Закон об архивах закрепляет регламент: правительственная документация, отобранная для постоянного хранения, должна быть передана в Национальный архив не позднее чем через двадцать лет после создания (а не за предыдущие тридцать лет).
Для государственных специалистов в области управления знаниями и информацией теневые ИТ-технологии являются серьезной проблемой.
Искусственный интеллект призван сыграть определенную роль в объединении разрозненных архивов, что делает их доступными для поиска и использования. Однако в этой ситуации мы сталкиваемся с парадоксальным противоречием, которое с разных сторон и в разной оптике рассматривается в «Archives, Access and Artificial Intelligence». Прежде всего имеется в виду противоречивая роль самого искусственного интеллекта, поскольку он таит в себе опасность, вторгаясь в архивную информацию. В эпоху цифровых технологий консервативная и пуристская точка зрения, предполагающая пиетет, уважение к фондовым структурам, сегодня практически дискредитирована. В «Archives, Access and Artificial Intelligence» ставят провокационный вопрос: не лучше ли архивистам пассивно принимать цифровую информацию, поступающую в архивы, и хранить как есть - без каких-либо изменений? Для некоторых специалистов по управлению знаниями и информацией этот принцип больше не работает: ведь цифровая информация, создаваемая организациями, по своей сути хаотична и неорганизованна. Чтобы легко находить информацию и отвечать на запросы, необходимо перегруппировывать, тегировать метаданные и при этом активно интерпретировать их и объединять в тематические коллекции, которые в свою очередь превращаются в артефакты. Но при этом функция искусственного интеллекта будет заключаться в автоматическом добавлении метаданных, извлечении имен, названий, будет способствовать тематическому моделированию, которое является не чем иным, как статистическим методом, используемым в машинном обучении и обработке естественного языка для выявления кластеров слов или репертуара “тем” в наборе данных. Автоматически идентифицируя конфиденциальные записи, искусственный интеллект позволил бы использовать «нечувствительные» данные. Анализ чувствительности с помощью специального программного обеспечения все еще находится на ранней стадии, но у него есть ощутимые перспективы, способные сделать видимым сокрытое в архивах. Поскольку искусственный интеллект применяется к Big Data, его подключение привело бы к созданию крупных реорганизованных архивов, свободных от конфиденциальных материалов. Одна из центральных проблем, обсуждаемых в «Archives, Access and Artificial Intelligence» - должен ли архивариус играть какую-либо роль в определении алгоритмов и кода, необходимого для принятия решений?
Авторы обозначили четыре основных положения.
Во-первых, архивариусы отвечают за сохранение документов в архивах, используемых историками и другими пользователями.
Во-вторых, архивисты с их профессиональными компетенциями в настоящее время всерьез не берутся в расчет в связи с разработкой и внедрением технологий искусственного интеллекта. Как правило, они остаются на обочине и к ним апеллируют в последнюю очередь.
В-третьих, архивисты в настоящее время не обладают возможностями и навыками, необходимыми для того, чтобы выступать в качестве экспертов в сфере современного документоведения, обеспечивающего долгую сохранность этих новых архивных корпусов. В–четвертых, архивариусам необходимо будет понимать не только то, как консультировать в области применения алгоритмов искусственного интеллекта, но и как решать важные этические вопросы. Когда искусственный интеллект применяется к архивам, существует риск искажения исторического документа и, следовательно, истории, а также нашей коллективной памяти. “Автоматизация больше не является выбором, это необходимость, но это не значит, что архивариус – лишний человек, второстепенное звено в сложной цепи обстоятельств», - считает один из авторов «Archives, Access and Artificial Intelligence».
Одна из кульминаций монографии - описание проекта ARCHANGEL (2017-2019) http://www.archangel.ac.uk, созданного для решения проблем, связанных с доверием, целостностью и аутентичностью архивных материалов в цифровом формате. В проекте исследовались возможности, предлагаемые блокчейном и машинным обучением. Блокчейн - технология, лежащая в основе биткоина и других криптовалют, но у нее есть потенциал для применение в других секторах. С помощью блокчейнов данные могут быть добавлены в цепочку, но они не могут быть перезаписаны, изменены или удалены. Таким образом, блокчейн представляет собой растущий список записей, называемых блоками, причем каждый блок содержит криптографический хэш предыдущего блока, временную метку и другую информацию. Такая технология прозрачна, все записи в цепочке видны всем, кто получил к ним доступ и у кого есть копия. В сочетании с машинным обучением блокчейн предлагает цифровой отпечаток пальца для архивных материалов, позволяющий проверить их подлинность.
ARCHANGEL разработал прототип создания хэшей с использованием методов машинного обучения, особенно для изображений и видеозаписей. Машина может идентифицировать причины сбоев и шума в этих записях, вызванные либо перекодированием и изменением формата, либо любым нежелательным процессом, таким как повреждение файлов при хранении или несанкционированный доступ. Машинное обучение дополняет блокчейн ARCHANGEL, позволяющие архивным коллекциям загружать метаданные, с высокой точностью идентифицирующие конкретные документы. Одно из решений состоит в том, чтобы вместо этого добавить архивную ссылку и контрольную сумму записи - уникальную строку, сгенерированную компьютером, которая изменяется при трансформации файла. Затем эти данные запечатываются в блок, который не может быть изменен или удален незаметно или бесследно. Наконец, копия данных передается всем участникам сети. ARCHANGEL убедительно показывает, что искусственный интеллект может работать на архивные коллекции, а не против них.
OVERVIEW CHAPTERS
Frontmatter
Contents
Introduction
Chapter 1: Artificial Intelligence and Discovering the Digitized Photoarchive
Chapter 2: Web Archives and the Problem of Access: Prototyping a Researcher Dashboard for the UK Government Web Archive
Chapter 3: Design Thinking, UX and Born-digital Archives: Solving the Problem of Dark Archives Closed to Users
Chapter 4: Towards Critically Addressable Data for Digital Library User Studies
Chapter 5: Reviewing the Reviewers: Training Neural Networks to Read Peer Review Reports
Chapter 6: Supervised and Unsupervised: Approaches to Machine Learning for Textual Entities
Chapter 7: Inviting AI into the Archives: The Reception of Handwritten Recognition Technology into Historical Manuscript Transcription
AFTERWORD: Towards a new Discipline of Computational Archival Science (CAS)
Authors (by order of appearance in the volume)
Материал подготовлен в рамках проекта РНФ №22-68-00066.