неверно что для обработки неструктурированной информации применяются технологии основанные на

Структурированные и неструктурированные данные: сравнение и объяснение

В этой статье вы подробнее познакомитесь со структурированными и неструктурированными данными. Давайте посмотрим, в чем разница между ними и почему вы должны знать это в первую очередь. Кроме того, мы поможем вам понять, как обрабатывать каждый тип данных и какие программные инструменты доступны для каждой цели.

Структурированные и неструктурированные данные в двух словах

Данные существуют во множестве различных форм и размеров, но большинство из них могут быть представлены в виде структурированных и неструктурированных данных.

Ключевые различия между неструктурированными данными и структурированными данными.

Структурированные данные представляют собой высокоорганизованную, фактическую и точную информацию. Обычно он представлен в форме букв и цифр, которые хорошо вписываются в строки и столбцы таблиц. Структурированные данные обычно существуют в таблицах, подобных файлам Excel и электронным таблицам Google Docs.

Неструктурированные данные не имеют заранее определенной структуры и представлены во всем разнообразии форм. Примеры неструктурированных данных варьируются от изображений и текстовых файлов, таких как документы PDF, до видео и аудио файлов, и это лишь некоторые из них.

Структурированные данные часто называют количественными данными, что означает, что их объективный и заранее определенный характер позволяет нам легко подсчитывать, измерять и выражать данные в числах. Неструктурированные данные также называются качественными данными в том смысле, что они имеют субъективный и интерпретирующий характер. Эти данные можно разделить на категории в зависимости от их характеристик и свойств.

Сделав это резюме, давайте перейдем к более описательному объяснению различий.

Что такое структурированные данные?

Итак, структурированные данные – это хорошо организованные и точно отформатированные данные. Эти данные существуют в формате реляционных баз данных ( СУБД ), то есть информация хранится в таблицах со связанными строками и столбцами. Таким образом структурированные данные аккуратно упорядочиваются и записываются, поэтому их можно легко найти и обработать. Пока данные вписываются в структуру СУБД, мы можем легко искать конкретную информацию и выделять отношения между ее частями. Такие данные можно использовать только по прямому назначению. Кроме того, для структурированных данных обычно не требуется много места для хранения.

Для работы с реляционными базами данных и хранилищами используется специальный язык программирования SQL, который означает язык структурированных запросов и был разработан IBM еще в 1970-х годах.

Примеры структурированных данных. Структурированные данные знакомы большинству из нас. Файлы Google Sheets и Microsoft Office Excel – это первое, что приходит на ум, когда речь идет о примерах структурированных данных. Эти данные могут содержать как текст, так и числа, такие как имена сотрудников, контакты, почтовые индексы, адреса, номера кредитных карт и т. Д.

Типичный пример структурированных данных: электронная таблица Excel, содержащая информацию о покупателях и покупках.

Практически каждый имел дело с бронированием билета через одну из систем бронирования авиабилетов или снятием наличных в банкомате. Во время этих операций мы обычно не думаем о том, с какими приложениями имеем дело и какие типы данных они обрабатывают. Однако это системы, которые обычно также используют структурированные данные и реляционные базы данных.

Что такое неструктурированные данные?

Имеет смысл, что если определение структурированных данных подразумевает аккуратную организацию компонентов предопределенным образом, определение неструктурированных данных будет противоположным. Части таких данных не структурированы заранее определенным образом, то есть данные хранятся в своих собственных форматах.

Принимая во внимание все разнообразие форматов файлов неструктурированных данных, неудивительно, что они составляют более 80 процентов всех данных. При этом компании, игнорирующие неструктурированные данные, остаются далеко позади, поскольку не получают достаточно ценной информации.

Примеры неструктурированных данных. Существует широкий спектр форм, которые составляют неструктурированные данные, такие как электронная почта, текстовые файлы, сообщения в социальных сетях, видео, изображения, аудио, данные датчиков и так далее.

Сообщение туристического агентства в Facebook: пример неструктурированных данных.

В качестве примера мы можем взять сообщения в социальных сетях туристического агентства или все публикации, если на то пошло. Каждый пост содержит некоторые показатели, такие как репосты или хэштеги, которые можно количественно определить и структурировать. Однако сами посты относятся к категории неструктурированных данных. Мы пытаемся сказать, что для анализа сообщений и сбора полезной информации потребуется некоторое время, усилия, знания и специальные программные инструменты. Если агентство публикует новые туристические туры и хочет узнать реакцию аудитории (комментарии), им нужно будет изучить публикацию в ее собственном формате (просмотреть публикацию в приложении социальных сетей или использовать передовые методы, такие как анализ настроений ).

Ключевые различия между структурированными и неструктурированными данными

Подробнее о различиях между структурированными и неструктурированными данными.

Теперь давайте обсудим еще несколько важных различий между структурированными и неструктурированными данными:

Форматы данных: несколько форматов против множества форматов

Структурированные данные обычно представлены в виде текста и чисел. Его форматы стандартизированы и удобочитаемы. Наиболее распространены CSV и XML. В модели данных формат данных был определен заранее.

В отличие от структурированных данных, неструктурированные форматы данных представлены в избытке различных форм и размеров. Неструктурированные данные не имеют заранее определенной модели данных и хранятся в своих собственных форматах (так называемых «исходных» форматах). Это могут быть аудио (WAV, MP3, OGG и т. Д.) Или видеофайлы (MP4, WMV и т. Д.), PDF-документы, изображения (JPEG, PNG и т. Д.), Электронные письма, сообщения в социальных сетях, данные датчиков и т. Д.

Модели данных: предопределенные и гибкие

Структурированные данные менее гибкие, так как они основаны на строгой организации модели данных. Такие данные зависят от схемы. Схема базы данных обозначает конфигурацию столбцов (также называемых полями) и типы данных, которые должны храниться в этих столбцах. Такая зависимость является как преимуществом, так и недостатком. Хотя информацию здесь можно легко найти и обработать, все записи должны соответствовать очень строгим требованиям схемы.

С другой стороны, неструктурированные данные обеспечивают большую гибкость и масштабируемость. Отсутствие заранее определенной цели неструктурированных данных делает их очень гибкими, поскольку информация может храниться в различных форматах файлов. Однако эти данные субъективны и с ними труднее работать.

Хранилища для аналитического использования: озера данных или хранилища данных

Чем больше объем данных, тем больше места требуется для хранения. Картинка с высоким разрешением весит намного больше, чем текстовый файл. Следовательно, неструктурированные данные требуют больше места для хранения и обычно хранятся в озерах данных, репозиториях хранения, которые позволяют хранить практически неограниченные объемы данных в необработанных форматах. Помимо озер данных, неструктурированные данные хранятся в собственных приложениях.

В обоих случаях есть потенциал для использования облака.

Базы данных: SQL против NoSQL

Реляционные базы данных используют SQL или язык структурированных запросов для доступа к хранимым данным и управления ими. Синтаксис SQL аналогичен синтаксису английского языка, что обеспечивает простоту его написания, чтения и интерпретации.

Вот как SQL помогает делать запросы.

Говоря о базах данных для неструктурированных данных, наиболее подходящим вариантом для этого типа данных будут нереляционные базы данных, также известные как базы данных NoSQL.

NoSQL означает «не только SQL». Эти базы данных имеют различные модели данных и хранят данные в нетабличном виде. Наиболее распространенные типы баз данных NoSQL – это ключ-значение, документ, граф и широкий столбец. Такие базы данных могут обрабатывать огромные объемы данных и справляться с высокими пользовательскими нагрузками, поскольку они достаточно гибкие и масштабируемые. В мире NoSQL существуют скорее коллекции данных, чем таблицы. В этих сборниках есть так называемые документы. Хотя документы могут выглядеть как строки в таблицах, они не используют одну и ту же схему. В одной коллекции может быть несколько документов с разными полями. Кроме того, между элементами данных практически нет отношений. Идея здесь состоит в том, чтобы уменьшить количество слияний отношений и вместо этого иметь сверхбыстрые и эффективные запросы. Хотя будут и дубликаты данных.

Пример структуры данных NoSQL.

Легкость поиска, анализа и обработки

Одно из основных различий между структурированными и неструктурированными данными заключается в том, насколько легко их можно подвергнуть анализу. Структурированные данные в целом легко искать и обрабатывать, независимо от того, обрабатывает ли это человек или выполняет программные алгоритмы. Неструктурированные данные, напротив, гораздо сложнее искать и анализировать. После обнаружения такие данные должны быть внимательно обработаны, чтобы понять их ценность и применимость. Этот процесс сложен, поскольку неструктурированные данные не могут поместиться в фиксированные поля реляционных баз данных, пока они не будут собраны и обработаны.

С исторической точки зрения, поскольку структурированные данные существуют дольше, логично, что для них существует отличный выбор зрелых аналитических инструментов. В то же время те, кто работает с неструктурированными данными, могут столкнуться с меньшим выбором инструментов аналитики, поскольку большинство из них все еще разрабатываются. Использование традиционных инструментов интеллектуального анализа данных обычно разбивается о неорганизованную внутреннюю структуру этого типа данных.

Природа данных: количественные vs качественные

Неструктурированные данные, в свою очередь, часто классифицируются как качественные данные, содержащие субъективную информацию, которую невозможно обработать с помощью традиционных методов и инструментов программного анализа. Например, качественные данные могут поступать из опросов клиентов или отзывов в социальных сетях в текстовой форме. Для обработки и анализа качественных данных требуются более современные аналитические методы, такие как:

Инструменты и технологии

Инструменты структурированных данных. Ясная и высокоорганизованная сущность структурированных данных способствует широкому спектру инструментов управления данными и аналитики. Это открывает возможности для групп данных с точки зрения выбора наиболее подходящего программного продукта для работы со структурированными данными.

Инструменты управления структурированными данными.

Среди наиболее часто используемых систем управления реляционными базами данных, инструментов и технологий для обработки данных можно выделить следующие:

Инструменты для неструктурированных данных. Поскольку неструктурированные данные бывают разных форм и размеров, для их правильного анализа и обработки требуются специально разработанные инструменты. Кроме того, необходимо найти квалифицированную команду по анализу данных. Мало того, что полезно понимать тему данных, но также важно выяснить отношения этих данных.

Инструменты управления неструктурированными данными.

Ниже вы найдете несколько примеров инструментов и технологий для эффективного управления неструктурированными данными:

В свое время анализ неструктурированных данных обычно выполнялся вручную и требовал много времени. В настоящее время существует довольно много продвинутых инструментов на основе ИИ, которые помогают сортировать неструктурированные данные, находить соответствующие элементы и сохранять результаты. Технологии и инструменты для неструктурированных данных включают алгоритмы обработки естественного языка и машинного обучения. Таким образом, можно адаптировать программные продукты к потребностям конкретных отраслей.

Команды данных для обработки данных

В отличие от инструментов структурированных данных, инструменты, предназначенные для неструктурированных данных, более сложны в работе. Следовательно, им требуется определенный уровень знаний в области науки о данных и машинного обучения для проведения глубокого анализа данных. Кроме того, специалисты, работающие с неструктурированными данными, должны хорошо разбираться в теме данных и их взаимосвязи. Учитывая вышесказанное, для обработки неструктурированных данных компании потребуется квалифицированная помощь специалистов по данным, инженеров и аналитиков.

Примеры и варианты использования структурированных и неструктурированных данных

Поскольку мы частично затронули тему примеров структурированных и неструктурированных данных выше, было бы полезно указать на конкретные варианты использования.

Итак, когда вы думаете о датах, именах, идентификаторах продуктов, информации о транзакциях и т. Д., Вы знаете, что имеете в виду структурированные данные. В то же время неструктурированные данные имеют множество лиц, таких как текстовые файлы, документы PDF, сообщения в социальных сетях, комментарии, изображения, аудио / видео файлы, электронные письма и многие другие.

Чаще всего отраслям необходимо использовать оба типа данных для повышения эффективности своих услуг.

Источник

Интегрированная обработка неструктурированных данных

Системы бизнес-анализа неструктурированных данных позволяют охватить имеющиеся в компании данные и выявить скрытые закономерности, однако ощутимый эффект дают интегрированные системы, работающие со всеми данными организации.

Системы бизнес-анализа неструктурированных данных позволяют учесть большее количество имеющихся сведений о деятельности компании, выявить скрытые закономерности для формирования новых управляющих воздействий на бизнес-процессы, однако максимально ощутимый эффект дают интегрированные системы, работающие со всеми данными организации с целью получения полной картины о реальном положении дел. Вместе с тем интеграционный подход пока еще слабо реализуем на практике.

Структурированные и неструктурированные данные — два пересекающихся подмножества данных информационного пространства организации, и анализ каждого подмножества в отдельности позволяет выделить закономерности, присущие только ему. Например, используя структурированные данные о котировках акций компании, можно оценить динамику их роста или падения на фондовой бирже, а при обработке неструктурированных источников, таких как публикации в СМИ, открывается возможность исследовать эмоциональный фон вокруг бренда этой компании и сформулировать экспертную оценку влияния той или иной информации на котировки ее акций. Работая со всей информацией о конкретном событии или процессе, можно научиться осознанно и целенаправленно управлять этим процессом.

Методы работы с неструктурированными данными иногда противопоставляются технологиям бизнес-аналитики, однако точнее говорить не о противопоставлении, а о взаимном дополнении двух групп технологий.

В комплексном инструменте бизнес-анализа организация должна иметь как возможности анализа структурированных и неструктурированных данных, так и набор средств, которые позволят провести их совместный анализ. Вместе с тем сегодня наблюдается слабая интеграция систем анализа структурированных и неструктурированных данных — совместный анализ данных из различных источников пока возможен только при условии, что структуры этих данных перед применением инструментов анализа приведены к схожему виду. То есть неструктурированные данные должны быть структурированы, так как именно для структурированных данных наиболее развит математический и функциональный аппарат подготовки и анализа.

Неструктурированные данные — это на сегодняшний день еще не до конца оцененный бизнес-актив, эффект от использования которого будет тем выше, чем совершеннее и «тоньше» будут соответствующие программные инструменты. По оценкам экспертов, около 80% внутрикорпоративного информационного контента имеют неструктурированный или частично структурированный вид — это файлы различных форматов (фото, аудио и видео, электронная почта), несущие в себе огромный потенциал для бизнес-анализа. Мало того, наиболее продвинутые компании начинают «сканировать» внешнее информационное поле в поисках дополнительных актуальных знаний о конъюнктуре рынка и поведении своего сегмента потребителей, надеясь найти новые решения для развития своего бизнеса. Однако основной массив данных, генерируемых существующими на планете организационными структурами (предприятиями, компаниями, семьями, группами по интересам и т. д.), остается вне фокуса внимания аналитиков — подобная информация не подпадает под критерии области анализа, отсутствует инструмент обработки, а поток данных избыточен.

Можно ли прочитать мысли клиентов, чтобы понять их текущие и будущие предпочтения? Как оперативно найти важную информацию в потоке новостей и сообщений в социальных медиа? Возможно, понятие «контент» сегодня обретает новый смысл.

Неструктурированная информация характеризуется рядом признаков, затрудняющих ее обработку средствами стандартного аналитического инструментария, но при этом как раз и составляющих уникальный потенциал для извлечения новых знаний. Во-первых, она очень разнообразна. Во-вторых, она неоднозначна — одинаковый набор данных может содержать разный смысл в зависимости от контекста, языковых и культурных особенностей. В-третьих, она динамична — со временем меняется структура информации, ее значение. Кроме того, неструктурированные данные зачастую носят субъективный и эмоционально окрашенный характер. Все это, а также анализ не учтенных ранее данных, выделение дополнительных и неявных предметных областей, пересечение и взаимовлияние предметных областей является сегодня предметом пристального изучения аналитиков в сфере неструктурированных данных.

Для разговора о способах анализа неструктурированных данных крайне важно понятие онтологии — совокупности схемы описания предметной области и правил отнесения данных к этой предметной области. Как схема она должна содержать концепты — сущности, атрибуты сущности и, в обязательном порядке, связи. При этом связи должны быть нагруженными, то есть содержать также атрибуты, которые позволяют отразить служебную информацию: эмоциональный оттенок отношения, предмет связи, способ связи и т. д. Для концептов, атрибутов, связей определяются критерии — правила отбора данных, удовлетворение которым позволяет отнести данные из неструктурированного потока информации к той или иной предметной области.

Способы обработки неструктурированных данных:

Все эти способы имеют ограничения, влияющие на полноту обработки неструктурированных данных, — они требуют обязательного участия человека, отвечающего за формирование запросов и схем предметных областей: онтологий, описаний лингвистических правил, а также за обучение системы и настройку семантического анализа. Осмысленное выделение предметной области (источники данных, критерии и особенности, обязательные сущности, атрибуты и связи) на сегодняшний день способен сделать только человек.

Выделение структуры предметной области (онтологии) — это первый шаг по приведению неструктурированных данных к структурированному виду. Каждая отдельная предметная область — это только подмножество неструктурированного набора данных, поэтому для максимально возможного охвата данных и, как следствие, более полного анализа необходимо выделить максимально возможное количество различных предметных областей, которые будут участвовать в анализе.

К сформированным структурам применимы инструменты поиска, визуализации, анализа, фильтрации, моделирования, прогнозирования, выделения закономерностей, выделения эмоциональной окраски, категоризации и извлечения фактов. Сформированные структуры успешно участвуют в кросс-анализе со структурированными источниками данных.

Рис.1. Универсальная схема обработки и анализа неструктурированных данных

На рис. 1 приведена универсальная схема работы с неструктурированными данными, опираясь на которую можно привести данные к структурированному виду и предоставить аналитику возможность применить к ним специализированные инструменты анализа. Онтология в контексте этой схемы — логическая структура, которая связана с одной или несколькими физическими структурами хранения данных в базе данных. В идеале онтология — это абстрактный, логический уровень, отделяющий аналитика-пользователя от структур хранения данных. Всю работу с данными, формирование запросов и отчетов аналитик осуществляет в терминах схемы онтологии, фактически — в терминах предметной области, для анализа которой эта схема создана. При этом сущности и атрибуты, связи схемы онтологии могут быть связаны с несколькими разнородными источниками данных. Аналитик осуществляет запрос в соответствии со схемой онтологии и получает свод данных из всех связанных источников. В качестве примеров аналитических систем, в основе которых лежит разработка и использование логического уровня (онтологии), можно назвать продукты компаний НПК «Кронос-Информ» (CronosPro) и «Авикомп Сервисез» (ТАИС Ontos).

В чем причины слабой интеграции систем обработки неструктурированных и структурированных данных? Их несколько:

Комплексной интеграции пока нет, но тем не менее потребность в интегрированном анализе структурированных и неструктурированных данных растет и задача частично решается. В СУБД создается реляционная физическая структура хранения данных, в которой каждая сущность (например, адрес или документ, проводки и др.) — это таблица, а атрибуты (улица, дом и т. д.) — поля. Нагруженные связи оформляются в виде служебных таблиц с атрибутами. Сама связь настраивается по ключу. Далее лингвисты и программисты прописывают правила анализа и выделения сущностей, связей и атрибутов. Исходные неструктурированные данные пропускаются через сито фильтров и правил, а затем помещаются в базу данных. Однако этот способ определения онтологии имеет ряд существенных ограничений. Во-первых, его отличает ограниченный набор онтологий и отсутствие возможности гибкой работы с онтологиями (описанием предметных областей): их создания, изменения, удаления. Во-вторых, онтология формируется для конкретного заказчика-аналитика, под задачи анализа, однако аналитик участвует в разработке системы опосредованно, только на этапе постановки задачи. На этапе реализации работают ИТ-специалисты и лингвисты, поэтому для максимально эффективного решения поставленной задачи и заказчик, и разработчик должны обладать универсальными знаниями и навыками, а также непротиворечивым пониманием стратегических целей и методологии проекта. В-третьих, онтология — база данных является физической структурой представления и хранения информации, которая не позволяет гибко увязать информацию из нескольких источников данных. Для этого нужно создавать дополнительные служебные структуры хранения метаданных, причем делать все приходится на уровне баз данных, что со временем порождает проблемы с контролем целостности. Как бы то ни было, по такому пути идут компании, специализирующиеся на анализе только неструктурированных данных («ЭР СИ О» с серией продуктов RCO, «Медиалогия» со своими сервисами анализа СМИ и др.) в проектах, требующих интегрированного анализа со структурированными данными. Некоторые разработчики промышленных СУБД (например, Oracle) встраивают в свои системы элементы Data Mining, которые, однако, в большей степени ориентированы на выявление неявных закономерностей в структурированных данных.

Другой способ интегрированной обработки неструктурированных данных состоит в интеграции инструментов анализа структурированных и неструктурированных данных в рамках одной системы на базе логического уровня — онтологии. Обязательным условием создания такого интегрированного решения является наличие инструмента создания и редактирования онтологий. Самым близким классом систем, у которого есть и инструменты анализа, и логический уровень представления информации, являются системы бизнес-аналитики, в которых имеются логические слои (Universe Designer в SAP BusinessObjects, BISM в Microsoft SQL Server, конструктор OLAP в Prognoz Platform и др.), они называются по-разному, обладают разным функционалом, но при определенной доработке их можно использовать как редактор онтологий. В таких системах остается добавить модуль обработки неструктурированных данных и интегрировать его с редактором онтологий, отвечающим за транспорт данных (рис. 2). Интеграция систем по такой схеме расширяет возможности классических систем бизнес-аналитики, трансформируя их в системы класса СППР (системы поддержки принятия решений).

Рис. 2. Схема интеграции на уровне онтологии в системах BI

Примером интегрированных решений для анализа структурированных и неструктурированных данных является облачный сервис Prognoz Data Portal, в котором реализован механизм Search-Based BI, позволяющий осуществлять в хранилище данных поиск информации по источникам, отчетам, справкам и публикациям, формулируя запросы на естественном языке. Также в компании «Прогноз» реализуется проект с применением обработки неструктурированных данных для одной из российских торговых сетей, в котором аналитический инструментарий используется для автоматической обработки массива данных кассовых чеков. Этот источник характеризуется определенным набором метаданных, но, в силу разнородности своей структуры, требует особого подхода к вычленению значимой информации. Чеки в торговле являются основным источником знаний о бизнесе — их обработка поможет производить анализ и делать выводы по обороту, эффективности торговых точек, номенклатуре товаров, режиму работы, использованию дисконтных карт и др. Комплексная аналитическая система позволяет на их основании рассчитывать такие ключевые показатели эффективности персонала, как объем продаж на один час работы продавцов или среднее время обслуживания каждого покупателя. Руководству сети могут предоставляться данные для более эффективного управления товарным ассортиментом и складскими запасами, для планирования и оценки маркетинговых мероприятий по привлечению и удержанию клиентов на основе данных дисконтных карт, для отслеживания подозрительных ситуаций и предотвращения случаев воровства недобросовестными сотрудниками.

Интеграция систем анализа структурированных и неструктурированных данных способствует организации обработки всех данных компании, проведению анализа перекрестного влияния различных сведений, обнаружению наложения и пересечения данных, скрывающих новые знания, влияющих на качество и обоснованность принимаемых решений. Сегодня имеются технологические и методологические причины того, что процесс интеграции идет недостаточно интенсивно, но главная причина в том, что пока нет спроса на интеграционные решения. Большинство ИТ-руководителей компаний не могут оценить объемы и качество скрытой информации, которую содержат неструктурированные данные, и не понимают, из каких источников их можно брать, как эти данные коррелируют со структурированной корпоративной информацией и какое преимущество получит компания от интегрированного анализа всех своих данных. В итоге разработчики, не видя спроса, не спешат предложить цельное решение, хотя интеграцию инструментов обработки структурированных и неструктурированных данных способны обеспечить не только крупные фигуранты рынка ИТ, но и нишевые игроки. При этом, как бы ни подходили разработчики к решению проблемы интеграционного анализа, использование слоя онтологии неизбежно, а предложенная схема (рис. 2) в ближайшем будущем станет доминантной в проектируемых архитектурах.

Артем Гришковский (grishkovskiy@prognoz.ru) — советник генерального директора, компания «Прогноз» (Москва).

Поделитесь материалом с коллегами и друзьями