Тег (метаданные)


Тег — неструктурированное ключевое слово, относящееся к части информации (это могут быть закладки браузера, цифровые изображения, файлы). Такие метаданные призваны описать эти части информации и помогают находить их в процессе просмотра или через поисковый запрос. Зависит от используемой системы, но в целом теги используются без жёстких правил человеком, создающим или просматривающим данные.

Тегирование стало популярным благодаря созданным по методике Веб 2.0 сайтам и используемым там сервисам. Теперь это также стало частью некоторых компьютерных программ.

История

Присвоение меток, или тегирование, было создано в качестве инструмента для помощи в классификации, обозначении принадлежности, указании границ, определении идентичности. Может быть словом, изображением или любой другой идентификационной меткой. Аналогом в реальном мире являются топографические описи и научно-справочные картотеки экспонатов музеев. Идентификация и классификация объектов и информации с помощью слов возникло задолго до появления компьютеров. Однако поисковые запросы значительно ускоряют исследование записей.

Сетевые и интернет-базы данных, а также ранние интернет-сайты применяют метки при опубликовании данных для помощи при поиске контента конечными пользователями. Со времён веб 1.0 пользователи приняли понятие тег как любое буквенное или словесное описание, и более не уточняют его.

В 2003 году веб-сайт социальных закладок Delicious предложил своим пользователям добавлять теги к своим закладкам, чтобы ускорить последующий их поиск. Также появилась возможность видеть в одном месте всю информацию, связанную с конкретным тегом. Flickr предложил пользователям добавлять собственные текстовые метки каждой своей фотографии создавая гибкую и простую систему метаданных для ускорения поиска изображения. Успешное развитие Flickr и влияние Delicious сделали идею широко известной, и прочие социальные сети и софт — YouTube, Technorati, Last.fm — поддержали её. Остальные компьютерные и интернет-приложения также внедрили идею в виде «меток» в Gmail или возможности добавления и редактирования тегов в iTunes или Winamp.

В ранних версиях сайтов теги использовались дизайнерами для информирования поисковых машин о содержании страниц. Сегодня для этих целей используют мета теги.

Теги-ключевые слова впервые начали использовать в созданной Jumper Networks в сентябре 2008 года платформе Jumper 2.0. Она была первой совместной поисковой системой использующей метод расширенного тегирования в управлении знаниями.

Веб-сайты, использующие теги, часто показывают подборки популярных меток в облаках тегов. Пользовательские теги одинаково полезны как для самих пользователей, так и для остальных посетителей сайта.

Теги могут иметь «восходящий» тип классификации, в отличие от «нисходящего» иерархического. В традиционных иерархических системах, основанных на таксономии, существует ограниченное количество терминов, используемых для корректной идентификации каждого объекта. Тегирование позволяет иметь неограниченное количество меток для классификации. Вместо принадлежности к одной категории объект может иметь несколько различных тегов. Некоторые исследователи экспериментируют, комбинируя иерархическую структуру и «плоские» теги при поиске информации.

Примеры

Многие блог-платформы позволяют авторам отмечать в свободной форме свои публикации наряду с присвоением категории (или взамен этого). Например, статья может быть отмечена тегом «хоккей» и «билеты». Каждый из этих тегов становится гиперссылкой, ведущей к списку всех статей с такой меткой. У блога может быть боковая панель со списком всех тегов этого сайта, каждый элемент которого ведёт к соответствующей подборке. Для ревизии меток автор может редактировать список тегов. Все связи между статьями и списками автоматически обновляются движком блога, благодаря чему отпадает необходимость в ручном перемещении статьи из категории в категорию.

Тегами принято ассоциировать для участников события и конференции для использования в публикациях, например в блогах, фотоотчётах и презентациях. Поисковые движки могут индексировать их для подборок соответствующей тематики при выдаче результатов.

Исследователи могут работать с большим количеством объектов (цитаты, библиографии, изображения) в цифровом виде. При необходимости их можно привязать к нужным меткам или группам меток.

Особые типы тегов

Тройные теги

Специальные тройные теги или машинные теги используют определённый синтаксис для указания дополнительной семантической информации о тегах, делая их понятнее или более информативными для обработки компьютерными программами. Такие теги состоят из трёх частей — пространства имён, предиката и значения. Например, «geo:long=50.123456» является меткой географической долготы с координатой 50,123456. Эта тройная конструкция соответствует модели данных Resource Description Framework.

Тройные теги были придуманы для geolicious в ноябре 2004 г., чтобы показывать на карте закладки Delicious. Позже они стали применяться после переработки Mappr и GeoBloggers для фотографий в Flickr.

Специализированные метаданные для географической идентификации теперь известны как геотеггинг. Машинные теги также используют для других нужд, например для идентификации фотографий определённых событий или для обозначения видов биологической номенклатуры.

Хештеги

Хештеги это тип метаданных, запись которых начинается знаком # (хеш). Этот вид тегов распространён в микроблогинге и социальных сетях — Twitter, Facebook, Google+, ВКонтакте и Instagram.

Теги знаний

Теги знаний представляют собой тип метаинформации, описывающей или определяющей некоторые аспекты информационных ресурсов (таких как документы, цифровые изображения, таблицы баз знаний или веб-страницы). Теги знаний несколько шире описывают объекты, нежели традиционные неиерархические ключевые слова. Это тип метаданных, представляющих знания в виде специальных форм-профилей, содержащих описание, категорию, класс, семантику, комментарии, заметки, примечания, гиперссылки или справки. Такие профили инвентаризируют информацию, находящуюся на стороннем, часто гетерогенном, ресурсе-хранилище. Теги знаний являются инструментами управления знаниями методами Enterprise 2.0 для записи сведений об инсайтах, опыте, свойствах, зависимостях или взаимоотношениях, ассоциированных с информационными данными. В целом теги более гибки, чем прочие системы классификации управления знаниями.

Инвентаризация знаний тегами подразумевает много разных форм, например: фактические знания (находят в книгах и данных), концептуальные знания (находят в перспективах и концептах), оценочные знания (требующих суждений и предположений), методологические знания (полученных из рассуждений и стратегий). Такие формы знаний часто выходят за рамки данных и основаны на личном опыте, озарениях или оценке. Знания это информация в голове индивидуума — персональное субъективное понимание фактов, операций, концептов, объяснений, идей, обзоров и суждений, могущих быть или не быть уникальными, полезными, верными или структурированными. Теги знаний расширяют границы информации и добавляют новые значения, контексты, объяснения. Knowledge tags are valuable for preserving organizational intelligence that is often lost due to turn-over, for sharing knowledge stored in the minds of individuals that is typically isolated and unharnessed by the organization, and for connecting knowledge that is often lost or disconnected from an information resource.

Преимущества и недостатки

В типичной системе тегирования нет фиксированной информации о значениях или семантике каждого тега; пользователи могут легко использовать новые теги наряду со старыми. Имея корни в культуре или времени создания, иерархическая система довольно сложно или медленно поддаётся изменению. Гибкость тегирования позволяет пользователям классифицировать свои коллекции самыми удобными, на их взгляд, способами, но разнообразие персональных представлений создаёт проблемы в процессах поиска и исследования.

Когда пользователям дана возможность свободного выбора тегов (фолксономия вместо выбора терминов из контролируемых словарей), в метаданных появляются омонимы (одинаковые теги с разным значением) и синонимы (множество тегов с одним значением), которые могут вести к неуместным связям между объектами и безрезультатному поиску информации об объекте. Например, тег «замок» может привести к постройке или механизму, а объекты, относящиеся к версии ядра Linux, будут отмечены «Linux», «ядро», «Penguin», либо другими словами. Пользователи могут вводить теги видоизменёнными словами, например в единственном или множественном числе, тем самым усложняя навигацию в системах, где нет стемминга. Крупномасштабные проблемы фолксономии вынуждают пользователей заботиться об однообразном понимании терминов своей системы путём принятия частичных соглашений и таким образом упрощать доступ к информации. Ещё один недостаток — некоторое замедление работы процессора из-за того, что установление соответствия типа команды типу данных, в обычных ЭВМ выполняемое на этапе компиляции, при использовании тегов переносится на этап выполнения программы.

Complex system dynamics

Despite the apparent lack of control, research has shown that a simple form of shared vocabularies emerges in social bookmarking systems. Collaborative tagging exhibits a form of complex systems dynamics, (or self organizing dynamics). Thus, even if no central controlled vocabulary constrains the actions of individual users, the distribution of tags that describe different resources (e.g., websites) converges over time to stable power law distributions. Once such stable distributions form, simple vocabularies can be extracted by examining the correlations that form between different tags. This informal collaborative system of tag creation and management has been called a folksonomy.

Спам

Доступные для пользования системы тегирования подвержены захламлению. В надежде привлечь посетителей (например, как в YouTube) люди отмечают информацию чрезмерным количеством тегов или тегами, не имеющим ничего общего с предметом информации. С этим явлением борются путём проверки человеком или статистическими методами идентификации спама. Ещё одним способом является ограничение на количество тегов.

Синтаксис

Некоторые системы с тегами имеют одно текстовое поле для ввода слов, поэтому для лексического анализа их нужно разделять. Наиболее популярными разделителями стали пробел и запятая. Чтобы можно было пользоваться этими символами, система должна поддерживать высокоуровневые разделители, например кавычки или экранирование символов. Часть систем вообще избегает разделителей, позволяя вводить лишь одно слово, тем самым увеличивая время на ввод множества тегов.

Совместимость синтаксиса с HTML достигается путём использования rel-тегов микроформата, имеющих семантическую связь со значением «tag» (rel="tag"), означающую, что указанные по ссылке страницы являются тегами для конкретной части информации.