Copy

Новогодний вестник Digital Humanities🎄🎁 🎈

Привет, это ваш цифровой новогодний подарок от DH Cloud — новый выпуск «Вестника Digital Humanities». В этом выпуске рассказываем про свежие DH-статьи о распознавании возраста фотографий, векторных моделях Льва Толстого, подсчетах животных в детской литературе и много чем еще, а также — про новые выпуски DH-подкастов, новые DH-видео и про будущие DH-события. С новым годом!  

Возрожденный «Вестник Digital Humanities»


DH-статьи

Maslinsky K. How Exactly does Literary Content Depend on Genre? A Case Study of Animals in Children’s Literature // Proceedings of the Computational Humanities Research Conference 2023. 2023. С. 178–190. В этой работе создатель «Деткорпуса» Кирилл Маслинский сравнивает разные жанры детской литературы через анализ упоминаний животных. Оказывается, что наименьшим разнообразием животного мира в детском корпусе отличаются детективы и ужастики, а наибольшим (после очевидных «анималистической прозы» и сказок) — фантастические жанры (научная фантастика, фэнтези). Посреди двух полюсов ожидаемо находятся реалистические тексты. А еще для разных жанров характерны разные типы животных: в «анималистической прозе» и сказках большое разнообразие птиц, особенно водоплавающих, в реализме часты сельскохозяйственные животные (особенно лошади), в детективах большую роль играют домашние коты и собаки. В ужастиках — объяснимый перекос в сторону змей 🐍


Barancová A., Wevers M., van Noord N. Blind Dates: Examining the Expression of Temporality in Historical Photographs // Proceedings of the Computational Humanities Research Conference 2023. 2023. С. 490–499.

В работе исследуется качество датировки исторических фотографий (в диапазоне от 1950 до 1999) при помощи CV-модели OpenCLIP и анализируются причины ошибок модели. Во-первых, показано (ожидаемое) влияние колоризации снимков: для черно-белых изображений модель (в режиме Zero-shot) предсказуемо ошибается в сторону более старых дат, после колоризации ошибка наоборот «съезжает» в будущее. Однако серьезных улучшений качества колоризация не дает.

Распределение ошибок до и после колоризации

Гораздо больший эффект дает то, что в статье назвали дообучением (fine-tuning) модели, а по факту — обучение обычного классификатора поверх эмбеддингов, которые выдает OpenCLIP. Так авторы, по их словам, избавляются от временного bias-а отдельных слов, которые приходилось использовать в Zero-shot подходе при формулирование воопросов к модели. Наконец, наиболее интересная часть работы — исследование того, какие конкретные типы объектов на фото затрудняют или облегчают датировку. Распознав объекты моделью Detectron2 и проанализировав их влияние на ошибку классификатора, авторы установили, что, к примеру, появление в кадре мотоциклов, поездов, велосипедов или лошадей повышает ошибку, а понижает её появление автобусов, автомобилей и … котиков 🐈. Последний факт исследователи объясняют тем, что «кошки чаще всего оказываются на снимках внутри помещений вместе с людьми». Люди же оказались наиболее важным фактором: их присутствие на фотографии снижает среднеквадратичную ошибку (MAE) сильнее всего: с 7.2 до 5.5.


Орехов Б.В. Индивидуальная семантика Л. Н. Толстого в свете векторных моделей // Terra Linguistica. 2023. Т. 14. № 4. С. 119–129. DOI: 10.18721/JHSS.14409

В этом исследовании Борис Орехов показывает, как  векторно-семантические модели могут помогать вскрывать индивидуальную семантику в языке русского классика. В работе исследуются семантические ассоциаты конкретных слов («любовь» и «поле») в word2vec-модели на текстах Л.Н. Толстого — на фоне большой модели, построенной на базе всего Национального корпуса русского языка. Оказывается, что у Толстого среди семантических ассоциатов «любви» отсутствуют слова «обожать» и «боготворить», входящие в число ближайших ассоциатов по НКРЯ в целом. Анализ контекстов употребления этих слов у Л.Н. Толстого показывает, что обожание и боготворение в Толстовских текстах — не синонимы любви. Они скорее противопоставляются истинной любви как ложное, неискреннее чувство. Что касается поля, то здесь, вопреки ожиданиями тех, чье представление о Л.Н. Толстом сформировано батальными сценами «Войны и мира», основной ряд семантических  ассоциатов — сельскохозяйственный: «пахота», «пашня», «засеивать», а также компоненты пейзажа — «лес», «луг» 🌱  


Tereshchenko K., Puchkovskaia A. Studying Estonian Gulag Literature: Approaches and Obstacles // A. Konarzewska & A. Nakai (eds.) Voicing Memories, Unearthing Identities: Studies in the Twenty-First-Century Literatures of Eastern and East-Central Europe. 2023. Vernon Press. pp. 155-173. Категория «Литература о ГУЛАГе» — гибридный класс литературы, включающий в себя художественные, документальные и промежуточные тексты. Исследовательницы Ксения Терещенко и Антонина Пучковская рассказывают об исследовании эстонской литературы о ГУЛАГе. В статье представлены результаты проекта «Notes from the Camp», в котором эстонская лагерная литература была представлена в цифровой форме при помощи технологий веб-дизайна и цифрового сторителлинга.


Володин А.Ю. Исторические исследования в контексте датаизма: методологический аспект // Вестник Пермского университета. История. 2023. No 4(63). С. 135–147.
Историй Андрей Володин рассматривает методологический аспект использования данных в историческом исследовании. Обсуждается, есть ли в гуманитарных науках действительно «большие» данные (довольно редко), приносит ли датафикация исторической науки какие-то кардинальные сдвиги в понимание исторических процессов (пока кажется, что нет, скорее, происходит нюансировка), а еще  — насколько данные обсуловлены возможностями и принципами их сбора исследователями и вообще — насколько они сконструированы, а не «даны» извне. Известное альтернативное название данных (data) — капта (capta, то есть буквально «ухваченное») Андрей Володин удачно сравнивает с «исследовательским уловом» конкретного археологического раскопа: «То, что найдено в раскопе в этом году, является последней по близости к настоящему моменту находкой, но лишь очередной на поступательном пути науки» ⛏️

DH-датасеты

Казакова Е.О. Забытые романы русских писателей из фондов Пушкинского Дома (1857–1917). Датасет состоит из 100 текстов романов малоизвестных русских писателей, хранящихся в фондах Института русской литературы РАН (Пушкинского Дома). Оцифрованные копии текстов автоматически распознаны и снабжены метаданными, в числе которых сведения о раскрытых псевдонимах, библиографическая информация об оцифрованном издании, а также дата первой публикации произведения. Эта публикация вводит в научный оборот произведения из малодоступных изданий, которые почти наверняка никогда ранее не были оцифрованы.


Вожик Е.И. Корпус публикаций журнала «Современник» (1847–1866). Датасет включает автоматически распознанные тексты 4686 публикаций основного содержания «Современника» и расширенные метаданные к ним. Структура таблицы метаданных задана сведениями основного авторитетного источника — указателя В. Э. Бограда (Боград В. Э. Журнал «Современник». 1847–1866: Указатель содержания. М.; Л.: ГИХЛ, 1959), которые были уточнены, реструктурированы и дополнены составительницей датасета. В частности, восстановлены опущенные Боградом указания на авторов в заглавиях статей.


Бакиров Р.А., Орехов Б.В. Русско-европейские литературные связи XVIII века. Датасет представляет собой сведения о литературных контактах русских и европейских писателей по данным двух справочных изданий — «Словаря русских писателей XVIII века» и энциклопедического словаря «Русско-европейские литературные связи — XVIII век». Упоминания писателей выделены из словарных статей и приведены в табличную машиночитаемую форму. Эти данные также собраны в файл с готовой таблицей ребер графа, который можно сразу загрузить в программу сетевого анализа (например, Gephi). В дни болезненного разрыва множества академических, творческих и личных связей между Россией и Европой кажется особенно ценным появление такого набора данных.


Вожик Е.И., Балакин А.Ю., Беляк Г.Н., Казакова Е.О., Маслинский К.А. Индекс произведений и писем А. С. Пушкина. Своей главной целью авторы датасета видели составление списка произведений, объединяющего все письменное наследие Пушкина, и присвоение каждому произведению уникального идентификатора (UID), позволяющего однозначно его определить. Датасет включает в себя три таблицы: oeuvre, letters и texts, — представляющие сведения о художественных и нехудожественных произведениях Пушкина, его письмах и текстах, которые написаны его рукой (выписки и записи разного содержания, официальные документы).

Визуализация на основе датасета

В основе датасета лежат переведенные в табличную форму данные «Пушкинской энциклопедии», работа над которой ведется в Институте русской литературы (Пушкинский Дом) РАН с 2009 года.

Материалы DH-конференций

Опубликованы материалы докладов IV конференции «Информационные технологии в гуманитарных исследованиях», о которой мы рассказывали в прошлом выпуске Вестника. В сборнике — 46 публикаций, посвященных цифровой истории, филологии, DH-образованию, цифровым архивам и другим направлениям цифровых гуманитарных исследований.

DH-подкасты:

В подкасте «Профессии будущего» — выпуск «Филология в эпоху искусственного интеллекта: что ждёт гуманитарные профессии в будущем»?  

DH-видео:

  • На youtube-канале «Цифровой среды» опубликована запись онлайн-презентации монографии «Цифровые гуманитарные науки» (Красноярск, 2023). Выступили: Александр Антопольский (ИНИОН РАН), Анастасия Бонч-Осмоловская (НИУ ВШЭ), Леонид Бородкин (МГУ), Евгений Гришин (БРЭ), Инна Кижнер (СФУ/Университет Хайфы), Борис Орехов (НИУ ВШЭ), Андрей Сметанин (ПГНИУ). Модератор дискуссии (и автор монографии): Андрей Володин (МГУ, ИЦГИ СФУ).
    Сама книга, о которой мы рассказывали в прошлом выпуске рассылки, опубликована в свободном доступе.

  • Доклад Ольги Алиевой (НИУ ВШЭ) «Платоноведение в фокусе алгоритма LDA» на декабрьской «Цифровой среде». За анонсами семинара можно следить на Timepad.

DH-анонсы

Семинар о гражданской науке в Центральной Азии и цифровой истории

Продолжается серия семинаров «Цифровая история в Центральной Азии» в Университете Эрлангена — Нюрнберга. Второй семинар пройдет 11 января в 14:15 CEST (14:15 Берлин / 18:15 Ташкент / 19:15 Бишкек и Алматы). Тема семинара: «Исследовательская и дискуссионная платформа Эсимде: почему важна гражданская наука»? Приглашенный эксперт — Гулзат Алагоз, исследовательница платформы Эсимде, Бишкек, Кыргызстан. Среди проектов, реализованных Гулзат, — база данных раскулаченных и высланных с территории Кыргызстана в Украину (1927–1944).

Эсимде – исследовательская площадка, которая занимается изучением и осмыслением процессов, событий и «белых пятен» в памяти народа и истории Кыргызстана и Центральной Азии XX-XXI веков. В своей работе Эсимде опирается на междисциплинарный подход и активно использует цифровые методы, в том числе создает исторические базы данных.

Для регистрации и получения ссылки на семинар напишите Динаре Гагариной (dinara.gagarina@fau.de).


Семинар «Гуманитарная цифра в вузах: программы, курсы, компетенции»

2 февраля пройдет научно-методический семинар «Гуманитарная цифра в вузах: программы, курсы, компетенции» Института цифровых гуманитарных исследований СФУ. Семинар пройдет в смешанном формате на площадках исторического факультета МГУ, Уральского гуманитарного института УрФУ (г. Екатеринбург) и Института цифровых гуманитарных исследований СФУ (г. Красноярск). Участники семинара могут выступить в одном из этих вузов, либо подключиться онлайн.

Цель семинара – поделиться опытом и поразмышлять о настоящем и будущем программ, учебных дисциплин и их отдельных элементов, которые можно было бы объединить рамкой цифровой гуманитаристики. Организаторы приглашают историков, филологов, представителей других отраслей знания, преподавателей и администраторов, чтобы обсудить вызовы и особенности цифрового поворота в социогуманитарных науках.

Для участиея в семинаре нужно заявить тему и краткую аннотацию до 21 января 2024 года. Их можно подать через форму регистрации или отправить их Андрею Володину (МГУ/СФУ, volodin@hist.msu.ru) и Сергею Соколову (УрФУ, sokolovsv@urfu.ru) с указанием в теме письма «Гуманитарная цифра в вузах».

DH-книги

Ciula A., Eide Ø., Marras С., Sahle P. Modelling Between Digital and Humanities: Thinking in Practice: Open Book Publishers, 2023. Книга с осмыслением моделирования как исследовательского метода и исследовательской практики у цифровых гуманитариев. Хотя в книге есть типичный для западной (и особенно для континентально-европейской) академии избыточный аналитизм с попытками сначала дать всему определение, зафиксировать все термины и подвести под всё эпистемологические основания, в ней есть что почерпнуть. Как минимум интересны примеры нестандартных подходов к моделированию нестандартных гуманитарных объектов  рассуждения, например, оцифровка фигурок традиционного турецкого кукольного театра теней с помощью игрового движка Unity.

Фигурки двух традиционных персонажей турецкого театра теней — Френка и Карагёза — в Unity с моделированием подвижных частей.


Еще в книге есть ценные наблюдения о функции метафор в научном языке вообще и в языке цифровых гуманитариев в частности. Метафоры и метафорический по своей сути язык служат как для обозначения общих концептов («экосистема», «инфраструктура»), так и для оперирования конкретными объектами данных («папка», «загрузить», «сеть», «ребро» и т.п.). А в пятой главе книги (после еще одного занудного философского вступления) приводится большой список возможных подходов к моделированию текста. Здесь нашлось место и компьютерной лингвистике, и стилометрии, и теории рецепции, и рассмотрению текста как материального объекта, и системной теории Лумана, и онтологическому моделированию в рамках библиотечных стандартов, и, конечно, Text Encoding Initiative (TEI).

Спасибо, что остаетесь с нами в 2024 году и продолжаете интересоваться цифровыми методами в гуманитарных науках!

Ваш, «Вестник DH»