Крупнейшей социальной сетью Facebook анонсирован запуск нового поколения системы автоматического описания изображений AAT, использующейся с 2016 года для повышения доступности графического контента. В новой версии AAT реализовано несколько технологических достижений, таких как существенное увеличение числа распознаваемых визуальных концепций и повышение подробности описаний с включением в них информации о позиционном расположении объектов и их относительном размере.
Идея альтернативного текста восходит к первым дням существования Интернета, когда многие пользователи работали через медленные коммутируемые соединения с чисто текстовым контентом без загрузки изображений, сильно нагружавших полосу пропускания. Альтернативный текст также помогал и пользователям с нарушениями зрения, которые могли получать информацию о графическом контенте в текстовой форме. Однако с ростом пропускной способности сети альтернативный текст стал менее приоритетным для большинства пользователей, что привело к частому игнорированию необходимости его создания, так как это требует дополнительных усилий от авторов страниц.
Современный Интернет во многом полагается на графический контент, особенно в области социальных медиа, что привело к существенным проблемам незрячих пользователей. Осознавая это, компания Facebook в 2016 году представила новую технологию, названную AAT (от английского Automatic Alternative Text - автоматический альтернативный текст). Она позволяет генерировать текстовые описания изображений при помощи машинного обучения, что позволяет автоматически распознавать и описывать некоторые конкретные объекты, такие как архитектурные памятники, или более абстрактные вещи, такие как ситуации или эмоции, давая незрячим возможность понять общую суть той или иной картинки.
Первая версия AAT была разработана с использованием данных, размеченных людьми, с помощью которых была обучена глубокая свёрточная нейронная сеть на миллионах контролируемых примеров. Получившаяся модель смогла распознавать 100 распространённых визуальных концепций, например, таких как "дерево", "гора" или "на открытом воздухе". Кроме того, поскольку люди, использующие Facebook, часто делятся фотографиями друзей и родственников, в описаниях AAT также использовались модели распознавания лиц, идентифицирующие людей (при условии, что эти люди дали явное согласие).
Полученный результат в 2016 году был существенным прорывом в области обеспечения невизуальной доступности изображений, но следующим логическим шагом было увеличение количества узнаваемых визуальных концепций и уточнение их описаний. С этой целью разработчики Facebook отошли от полностью контролируемого обучения с использованием данных, размеченных людьми. Хотя этот метод обеспечивает точность, но время и усилия, затрачиваемые на разметку данных, чрезвычайно высоки, из-за чего изначальная модель AAT надёжно и распознавала только 100 визуальных концепций.
В последнем поколении AAT, представленном в начале 2021 года, специалисты Facebook использовали модель, обученную на слабо контролируемых данных в виде миллиардов общедоступных изображений Instagram и их хэштегов. Чтобы получаемые модели работали лучше для всех, данные были взяты из изображений во всех основных географических регионах, а также были взяты во внимание переводы хэштегов на многие языки. Кроме того, распознаваемые визуальные концепции были подготовлены с учётом возможных вариантов пола, цвета кожи и возрастов. Полученные в результате модели являются более точными и инклюзивными с культурной и демографической точек зрения. Например, они могут определять свадьбы из разных регионов мира на основе традиционной одежды, а не распознавать только фотографии с белыми свадебными платьями.
Выбранный подход также дал возможность активнее использовать модели машинного обучения в качестве отправной точки для обучения новых моделей - процесс, известный как трансферное обучение. Это позволило Facebook создать модели, которые идентифицировали такие визуальные концепции, как национальные памятники, типы еды (например, жареный рис и картофель фри) или селфи.
Чтобы получить более полную информацию, такую как положение и количество, также был обучен двухэтапный детектор объектов, называемый Faster R-CNN, с помощью Detectron2 - платформы с открытым исходным кодом для обнаружения и сегментации объектов, разработанной Facebook AI Research. В результате, модель научилась определять местоположения и семантические теги объектов на изображении. Методы обучения с использованием нескольких тегов или наборов данных помогли сделать новую модель AAT более надёжной с увеличенным набором тегов.
Новое поколение AAT надёжно распознает более 1200 визуальных концепций, что на порядок превосходит первую версию системы 2016 года. В ходе консультаций относительно желаемых улучшений AAT пользователи программ экранного доступа дали понять, что точность имеет первостепенное значение. По этой причине Facebook включили только те визуальные концепции, для которых могли обеспечить хорошо обученные модели, соответствующие определённому высокому порогу точности. Хотя всё равно есть вероятность ошибки, поэтому каждое описание начинается со слова "возможно" или аналогичного по смыслу.
Увеличив количество распознаваемых визуальных концепций при сохранении высокого уровня точности, Facebook сосредоточили своё внимание на улучшении описаний. Опрос пользователей программ экранного доступа показал, что их интересует больше информации, когда изображение получено от друзей или семьи, и меньше, когда это не так. В итоге, новое поколение AAT предоставляет краткое описание всех изображений по умолчанию, но предлагая простой способ получить более подробные описания, если это необходимо.
Когда пользователи запрашивают подробности, отображается панель, которая предоставляет более полное описание содержимого изображения, включая количество элементов, некоторые из которых могут не быть упомянуты в кратком описании по умолчанию. Подробные описания также включают простую позиционную информацию, например, "вверху / посередине / внизу" или "слева / в центре / справа", а также сравнение относительной значимости объектов, описываемое через понятия первичности, вторичности или второстепенности. Подобные осторожные формулировки были специально выбраны для минимизации двусмысленности. Отзывы об этой функциональности во время разработки показали, что использование более традиционных разговорных слов для описания объекта, например, "большой", может сбивать с толку, поскольку неясно, относится ли характеристика к фактическому размеру объекта или к его размеру относительно других объектов на изображении. Например, даже самая маленькая в мире собака чихуахуа может выглядеть большой, если её сфотографировать крупным планом.
Для кратких описаний по умолчанию AAT использует упрощённую формулировку, а не длинное стилистически правильное предложение. Это не поэтично, но очень функционально. Незрячие пользователи могут быстро прочитать и понять описание, и оно легко поддаётся переводу, поэтому все описания альтернативного текста доступны на 45 различных языках, что обеспечивает полезность AAT людям во многих странах.
Ссылки:
Социальные сети