Метаданные

Материал из Seo Wiki - Поисковая Оптимизация и Программирование

Перейти к: навигация, поиск

Метаданные, в общем случае

  1. Метаданные - это информация о данных[1].
  2. Информация об информации. Пример: Имя автора правки в тексте. Этот термин в широком смысле слова используется для любой информации о данных: именах таблиц, колонок в таблице в реляционных базах данных, номер версии в файле программы (т.е как информативная часть в бинарном файле) и т. п.
  3. Структурированные данные, представляющие собой характеристики описываемых сущностей для целей их идентификации, поиска, оценки, управления ими[2].
    • набор допустимых структурированных описаний, которые доступны в явном виде и предназначение которых может помочь найти объект[3]. Термин используется в контексте поиска объектов, сущностей, ресурсов.
  4. Данные из более общей формальной системы, описывающей заданную систему данных.

Содержание

Иерархии метаданных

Структурированные в виде иерархии метаданные более правильно называть онтологией или схемой метаданных (например, XML-схема).

Различие между данными и метаданными

Обычно невозможно провести однозначное разделение на данные и метаданные в документе, поскольку:

  • Что-то может являться как данными, так и метаданными. Так, заголовок статьи можно одновременно отнести как к метаданным (как элемент метаданных — заголовок), так и к собственно данным (поскольку заголовок является частью самого текста).
  • Данные и метаданные могут меняться ролями. На стихотворение, рассматриваемое как данные, может быть написана музыка, в этом случае всё стихотворение может быть «прикреплено» к музыкальному файлу и в этом случае рассматриваться как метаданные. Таким образом, отнесение к одной или другой категории зависит от точки зрения (или пространства имен, системы отсчёта).
  • Возможно создание мета-мета-…-метаданных (см. аксиома выбора). Поскольку, в соответствии с обычным определением, метаданные являются данными, то можно создать метаданные на метаданные, метаданные на метаданные на метаданные и так далее. На первый взгляд это может показаться бесполезным, но на самом деле это является очень существенным и полезным свойством данных и метаданных.

Эти рассуждения применимы независимо от выбора определения метаданных (из приведённых выше и не только).

Использование

Метаданные используются для повышения качества поиска. Поисковые запросы, использующие метаданные могут спасти пользователя от лишней ручной работы по фильтрации. Информируя компьютер о том, какие элементы данных связаны и как эти связи учитывать, становится возможным осуществлять достаточно сложные операции по фильтрации и поиску. Например, если поисковая система «знает» о том, что «Ван Гог» является «голландским художником», то она может выдать в ответ на запрос о голландских художниках веб-страницу о Ван Гоге, даже если слова «голландский художник» не встречаются на этой странице. Такой подход, называемый представлением знаний, находится в сфере интересов Семантической паутины и искусственного интеллекта.

В частности, метаданные создаются для оптимизации алгоритмов сжатия с потерей качества. Например, если к видео прилагаются метаданные, позволяющие компьютеру разделить изображение на основную часть и фоновую, то последняя может быть сжата сильнее, что позволит достичь большего коэффициента сжатия.

Некоторые виды метаданных предназначены для обеспечения возможности различных видов представления некоторых данных. Например, если к изображению прилагаются метаданные, содержащие информацию о том, какая часть изображения наиболее важная (допустим, изображение человека), то программа для просмотра изображений на маленьком экране (таком, как на мобильном телефоне), может отобразить только эту наиболее важную часть изображения. Аналогично используются метаданные, позволяющие сделать доступными для слепых диаграммы и изображения, путём их преобразования для вывода на специальные устройства, либо чтения их описания с использованием программного обеспечения, преобразующего текст в речь.

Другие описательные метаданные могут использоваться автоматизированными рабочими потоками. Например, если некоторая «умная» программа «знает» содержимое и структуру данных, то данные могут быть автоматически преобразованы и переданы другой «умной» программе как входные данные. В результате, пользователи будут спасены от необходимости выполнения множества рутинных операций, если данные предоставлены для работы такими «немногословным» программам.

Метаданные становятся важны в World Wide Web по причине необходимости обеспечения поиска полезной информации среди огромного количества доступной. Метаданные, созданные вручную имеют большую ценность, поскольку это гарантирует осмысленность. Если веб-страница на какую-то определённую тему содержит слово или фразу, то все другие веб-страницы на эту тему могут содержать такое же слово или фразу. Метаданные также обладают разнообразием, поэтому если с какой-то темой связаны два значения, то каждое из них может быть использовано. Например, статья про Живой Журнал может быть обозначена с помощью нескольких значений: «Живой Журнал», «ЖЖ», «LiveJournal».

Метаданные используются для хранения информации о записях audio CD. Аналогично MP3 файлы хранят метаданные в формате ID3.

Классификация метаданных

Метаданные можно классифицировать по:

  • Содержанию. Метаданные могут либо описывать сам ресурс (например, название и размер файла), либо содержимое ресурса (например, «в этом видеофайле показано как парень играет в футбол»).
  • По отношению к ресурсу в целом. Метаданные могут относиться к ресурсу в целом или к его частям. Например, «Title» (название фильма) относится к фильму в целом, а «Scene description» (описание эпизода фильма) отдельное для каждого эпизода фильма.
  • По возможности логического вывода. Метаданные можно подразделить на три слоя: нижний слой — это «сырые» данные сами по себе; средний слой — метаданные, описывающие эти данные; и верхний слой — метаданные, которые позволяют делать логический вывод, используя второй слой.

Формат метаданных

Метаданными на практике обычно называют данные, представленные в соответствии с одним из форматов метаданных.

Формат метаданных — представляет собой стандарт, предназначенный для формального описания некоторой категории ресурсов (объектов, сущностей и т. п.). Такой стандарт обычно включает в себя набор полей (атрибутов, свойств, элементов метаданных), позволяющих характеризовать рассматриваемый объект. Например, формат MARC позволяет описывать книги (и не только книги), содержит поля для описания названия, автора, тематики и огромного множества других характеристик (формат MARC позволяет описать сотни характеристик).

Форматы можно классифицировать, во-первых, по охвату и подробности типов описываемых ресурсов. Во-вторых, по ширине и подробности области описания ресурсов и мощности структуры элементов метаданных. Кроме этого, можно классифицировать по предметным областям, или целям разработки и использования формата метаданных.

Форматы метаданных часто разрабатываются международными организациями или консорциумами, включающими в себя заинтересованные в появлении стандарта государственные организации и частные компании. Разработанный формат часто закрепляется как стандарт в одной или нескольких организациях, занимающихся разработкой и принятием стандартов (например W3C, ISO, ANSI и т. п.)

Классификация форматов метаданных по описываемой предметной области:

  • DCMI является одним из наиболее распространённых в интернет форматов метаданных для описания ресурсов любого типа (как электронных документов, так и реальных физических объектов). Другие форматы метаданных, предназначенные для описания архивов и электронных ресурсов GILS, EAD.
  • для описания персон и организаций vCard и FOAF
  • для описания библиографических ресурсов предназначены форматы семейства MARC (MARC 21 используемый в США и Великобритании и UNIMARC используемый в Европе и Азии); UNIMARC в свою очередь подразделяется на национальные расширения этого формата, так в России используется RUSMARC; в силу большой сложности форматов семейства MARC для решения задач интеграции данных был разработан формат MODS.
  • для описания музейных и исторических ценностей используется формат CDWA
  • для описания издательской продукции используются PRISM и ONIX
  • для кристаллографической информации CIF
  • для хранения и обмена информацией о погоде в бинарной форме GRIB
  • для работы с изображениями со спутников VICAR
  • для описания новостей NewsXML

и т. д.

См. также

  • APEv2
  • EXIF — формат метаданных технической информации для цифровых фотографий
  • ID3 (метаданные) — формат метаданных для звуковых файлов в формате MP3
  • Комментарии Vorbis — формат метаданных для звуковых данных в форматах Vorbis, FLAC и Speex
  • IPTC — формат метаданных содержательной информации для цифровых фотографий
  • XMP (Extensible Metadata Platform) — формат метаданных от Adobe.
  • Ср.: Метаконтент - средства, способы, языки и понятийные системы обработки контента веб сайтов.

Примечания

  1. Воройский Ф.С. Информатика. Новый систематизированный словарь-справочник (Вводный курс по информатике и вычислительной технике в терминах). — 2-е изд., перераб. и доп.. — М.: Издательство Либерия, 2001. — С. 536. — ISBN 5-85129-134-6
  2. Task Force on Metadata. Summary Report. // American Library Association. — 1999. — Т. June.
  3. D. C. A. Bultermann Is It Time For a Moratorium on Metadata? // IEEE MultiMedia. — 2004. — Т. Oct-Dec.
ar:ميتاداتا

az:Metaverilənlər ca:Metadades cs:Metadata da:Metadata de:Metadaten el:Μεταδεδομένα en:Metadata eo:Meta-dateno es:Metadato et:Metaandmed fa:فراداده fi:Metatieto fr:Métadonnée he:Metadata hr:Metapodaci hu:Metaadat id:Metadata it:Metadato ja:メタデータ kn:ಮೆಟಾಡೇಟಾ ko:메타데이터 lv:Metadati ms:Metadata nl:Metadata no:Metadata pl:Metadane pt:Metadados ro:Metadată simple:Metadata sk:Metadáta sr:Metapodaci sv:Metadata ta:மேனிலைத் தரவு th:เมทาดาตา uk:Метадані ur:Metadata vi:Siêu dữ liệu zh:元数据

Личные инструменты

Served in 0.242 secs.