Big data это


Что такое Big data: собрали всё самое важное о больших данных | Rusbase

Что такое Big data, как это работает и почему все носятся с данными как с писаной торбой: Rusbase объясняет на пальцах для тех, кто немного отстал от жизни.

Только ленивый не говорит о Big data, но что это такое и как это работает — понимает вряд ли. Начнём с самого простого — терминология. Говоря по-русски, Big data — это различные инструменты, подходы и методы обработки как структурированных, так и неструктурированных данных для того, чтобы их использовать для конкретных задач и целей.

Неструктурированные данные — это информация, которая не имеет заранее определённой структуры или не организована в определённом порядке.

Термин «большие данные» ввёл редактор журнала Nature Клиффорд Линч ещё в 2008 году в спецвыпуске, посвящённом взрывному росту мировых объёмов информации. Хотя, конечно, сами большие данные существовали и ранее. По словам специалистов, к категории Big data относится большинство потоков данных свыше 100 Гб в день.

Читайте также: Как зарождалась эра Big data

Сегодня под этим простым термином скрывается всего два слова — хранение и обработка данных.

Big data — простыми словами

В современном мире Big data — социально-экономический феномен, который связан с тем, что появились новые технологические возможности для анализа огромного количества данных.

Читайте также: Мир Big data в 8 терминах 

Для простоты понимания представьте супермаркет, в котором все товары лежат не в привычном вам порядке. Хлеб рядом с фруктами, томатная паста около замороженной пиццы, жидкость для розжига напротив стеллажа с тампонами, на котором помимо прочих стоит авокадо, тофу или грибы шиитаке. Big data расставляют всё по своим местам и помогают вам найти ореховое молоко, узнать стоимость и срок годности, а еще — кто, кроме вас, покупает такое молоко и чем оно лучше молока коровьего.

Кеннет Кукьер: Большие данные — лучшие данные

Технология Big data

Огромные объёмы данных обрабатываются для того, чтобы человек мог получить конкретные и нужные ему результаты для их дальнейшего эффективного применения.

Читайте также: Big data: анализ и структурирование

Фактически, Big data — это решение проблем и альтернатива традиционным системам управления данными.

Техники и методы анализа, применимые к Big data по McKinsey:

  • Data Mining;

  • Краудсорсинг;

  • Смешение и интеграция данных;

  • Машинное обучение;

  • Искусственные нейронные сети;

  • Распознавание образов;

  • Прогнозная аналитика;

  • Имитационное моделирование;

  • Пространственный анализ;

  • Статистический анализ;

  • Визуализация аналитических данных.

Горизонтальная масштабируемость, которая обеспечивает обработку данных — базовый принцип обработки больших данных. Данные распределены на вычислительные узлы, а обработка происходит без деградации производительности. McKinsey включил в контекст применимости также реляционные системы управления и Business Intelligence.

Технологии:

  • NoSQL;
  • MapReduce;
  • Hadoop;
  • R;
  • Аппаратные решения.

Читайте также: Big data: семантический анализ данных и машинное обучение

Для больших данных выделяют традиционные определяющие характеристики, выработанные Meta Group ещё в 2001 году, которые называются «Три V»:

  1. Volume — величина физического объёма.
  2. Velocity — скорость прироста и необходимости быстрой обработки данных для получения результатов.
  3. Variety — возможность одновременно обрабатывать различные типы данных.

Big data: применение и возможности

Объёмы неоднородной и быстро поступающей цифровой информации обработать традиционными инструментами невозможно. Сам анализ данных позволяет увидеть определённые и незаметные закономерности, которые не может увидеть человек. Это позволяет оптимизировать все сферы нашей жизни — от государственного управления до производства и телекоммуникаций.

Например, некоторые компании ещё несколько лет назад защищали своих клиентов от мошенничества, а забота о деньгах клиента — забота о своих собственных деньгах.

Сюзан Этлиджер: Как быть с большими данными?

Решения на основе Big data: «Сбербанк», «Билайн» и другие компании

У «Билайна» есть огромное количество данных об абонентах, которые они используют не только для работы с ними, но и для создания аналитических продуктов, вроде внешнего консалтинга или IPTV-аналитики. «Билайн» сегментировали базу и защитили клиентов от денежных махинаций и вирусов, использовав для хранения HDFS и Apache Spark, а для обработки данных — Rapidminer и Python.

Читайте также: «Большие данные дают конкурентное преимущество, поэтому не все хотят о них рассказывать»

Или вспомним «Сбербанк» с их старым кейсом под названием АС САФИ. Это система, которая анализирует фотографии для идентификации клиентов банка и предотвращает мошенничество. Система была внедрена ещё в 2014 году, в основе системы — сравнение фотографий из базы, которые попадают туда с веб-камер на стойках благодаря компьютерному зрению. Основа системы — биометрическая платформа. Благодаря этому, случаи мошенничества уменьшились в 10 раз.

Big data в мире

По данным компании IBS, к 2003 году мир накопил 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов). К 2008 году этот объем вырос до 0,18 зеттабайта (1 ЗБ = 1024 эксабайта), к 2011 году — до 1,76 зеттабайта, к 2013 году — до 4,4 зеттабайта. В мае 2015 года глобальное количество данных превысило 6,5 зеттабайта (подробнее).

К 2020 году, по прогнозам, человечество сформирует 40-44 зеттабайтов информации. А к 2025 году вырастет в 10 раз, говорится в докладе The Data Age 2025, который был подготовлен аналитиками компании IDC. В докладе отмечается, что большую часть данных генерировать будут сами предприятия, а не обычные потребители.

Аналитики исследования считают, что данные станут жизненно-важным активом, а безопасность — критически важным фундаментом в жизни. Также авторы работы уверены, что технология изменит экономический ландшафт, а обычный пользователь будет коммуницировать с подключёнными устройствами около 4800 раз в день. 

В 2017 году мировой доход на рынке Big date должен достигнуть $150,8 млрд, что на 12,4% больше, чем в прошлом году. В мировом масштабе российский рынок услуг и технологий big data ещё очень мал. В 2014 году американская компания IDC оценивала его в $340 млн. В России технологию используют в банковской сфере, энергетике, логистике, государственном секторе, телекоме и промышленности.

Читайте также: Как устроен рынок Big data в России

Что касается рынка данных, он в России только зарождается. Внутри экосистемы RTB поставщиками данных выступают владельцы программатик-платформ управления данными (DMP) и бирж данных (data exchange). Телеком-операторы в пилотном режиме делятся с банками потребительской информацией о потенциальных заёмщиках.

15 сентября в Москве состоится конференция по большим данным Big Data Conference. В программе — бизнес-кейсы, технические решения и научные достижения лучших специалистов в этой области.

Приглашаем всех, кто заинтересован в работе с большими данными и хочет их применять в реальном бизнесе.

Следите за Big Data Conference в Telegram, на Facebook и «ВКонтакте».

Обычно большие данные поступают из трёх источников:

  • Интернет (соцсети, форумы, блоги, СМИ и другие сайты);
  • Корпоративные архивы документов;
  • Показания датчиков, приборов и других устройств.

Помимо системы, описанной выше, в стратегии «Сбербанка» на 2014-2018 гг. говорится о важности анализа супермассивов данных для качественного обслуживания клиентов, управления рисками и оптимизации затрат. Сейчас банк использует Big data для управления рисками, борьбы с мошенничеством, сегментации и оценки кредитоспособности клиентов, управления персоналом, прогнозирования очередей в отделениях, расчёта бонусов для сотрудников и других задач.

«ВТБ24» пользуется большими данными для сегментации и управления оттоком клиентов, формирования финансовой отчётности, анализа отзывов в соцсетях и на форумах. Для этого он применяет решения Teradata, SAS Visual Analytics и SAS Marketing Optimizer.

Читайте также: Кто делает Big data в России?

«Альфа-Банк» за большие данные взялся в 2013 году. Банк использует технологии для анализа соцсетей и поведения пользователей сайта, оценки кредитоспособности, прогнозирования оттока клиентов, персонализации контента и вторичных продаж. Для этого он работает с платформами хранения и обработки Oracle Exadata, Oracle Big data Appliance и фреймворком Hadoop.

«Тинькофф-банк» с помощью EMC Greenplum, SAS Visual Analytics и Hadoop управляет рисками, анализирует потребности потенциальных и существующих клиентов. Большие данные задействованы также в скоринге, маркетинге и продажах.

Для оптимизации расходов внедрил Big data и «Магнитогорский металлургический комбинат», который является крупным мировым производителем стали. В конце прошлого года они внедрили сервис под названием «Снайпер», который оптимизирует расход ферросплавов и других материалов при производстве. Сервис обрабатывает данные и выдаёт рекомендации для того, чтобы сэкономить деньги на производстве стали. 

Читайте также: Как заставить большие данные работать на ваш бизнес

Большие данные и будущее — одна из самых острых тем для обсуждения, ведь в основе коммерческой деятельности лежит информация. Идея заключается в том, чтобы «скормить» компьютеру большой объем данных и заставить его отыскивать типовые алгоритмы, которые не способен увидеть человек, или принимать решения на основе процента вероятности в том масштабе, с которым прекрасно справляется человек, но который до сих пор не был доступен для машин, или, возможно, однажды — в таком масштабе, с которым человек не справится никогда.

Читайте также: 6 современных тенденций в финансовом секторе

Чтобы оптимизировать бизнес-процессы,«Сургутнефтегаз» воспользовался платформой данных и приложений «in-memory» под названием SAP HANA, которая помогает в ведении бизнеса в реальном времени. Платформа автоматизирует учёт продукции, расчёт цен, обеспечивает сотрудников информацией и экономит аппаратные ресурсы. Как большие данные перевернули бизнес других предприятий — вы можете прочитать здесь.

Big data в маркетинге

Благодаря Big data маркетологи получили отличный инструмент, который не только помогает в работе, но и прогнозирует результаты. Например, с помощью анализа данных можно вывести рекламу только заинтересованной в продукте аудитории, основываясь на модели RTB-аукциона.

Читайте также: Чем полезны большие данные для рекламного бизнеса?

Big data позволяет маркетологам узнать своих потребителей и привлекать новую целевую аудиторию, оценить удовлетворённость клиентов, применять новые способы увеличения лояльности клиентов и реализовывать проекты, которые будут пользоваться спросом.

Сервис Google.Trends вам в помощь, если нужен прогноз сезонной активности спроса. Всё, что надо — сопоставить сведения с данными сайта и составить план распределения рекламного бюджета.

Читайте также: Большие данные должны приносить практическую пользу бизнесу – или умереть

От технологий нам не спрятаться, не скрыться. Big data уже меняет мир, потихоньку просачиваясь в наши города, дома, квартиры и гаджеты. Как быстро технология захватит планету — сказать сложно. Одно понятно точно — держись моды или умри в отстое, как говорил Боб Келсо в сериале «Клиника». 

А что вам интересно было бы узнать о больших данных? Пишите в комментариях :)

Материалы по теме:

Некоторые специалисты по big data могут зарабатывать космические суммы

Можно ли не зависеть от больших данных?

Как стартапы могут использовать данные, чтобы стать умнее

Как FinTech использует большие данные — хрестоматийные примеры

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

rb.ru

Что такое Big Data: характеристики, классификация, примеры

Что такое Big Data (дословно — большие данные)? Обратимся сначала к оксфордскому словарю:

Данные — величины, знаки или символы, которыми оперирует компьютер и которые могут храниться и передаваться в форме электрических сигналов, записываться на магнитные, оптические или механические носители.

Термин Big Data используется для описания большого и растущего экспоненциально со временем набора данных. Для обработки такого количества данных не обойтись без машинного обучения.

Преимущества, которые предоставляет Big Data:

  1. Сбор данных из разных источников.
  2. Улучшение бизнес-процессов через аналитику в реальном времени.
  3. Хранение огромного объема данных.
  4. Инсайты. Big Data более проницательна к скрытой информации при помощи структурированных и полуструктурированных данных.
  5. Большие данные помогают уменьшать риск и принимать умные решения благодаря подходящей риск-аналитике

Примеры Big Data

Нью-Йоркская Фондовая Биржа ежедневно генерирует 1 терабайт данных о торгах за прошедшую сессию.

Социальные медиа: статистика показывает, что в базы данных Facebook ежедневно загружается 500 терабайт новых данных, генерируются в основном из-за загрузок фото и видео на серверы социальной сети, обмена сообщениями, комментариями под постами и так далее.

Реактивный двигатель генерирует 10 терабайт данных каждые 30 минут во время полета. Так как ежедневно совершаются тысячи перелетов, то объем данных достигает петабайты.

Классификация Big Data

Формы больших данных:

  • Структурированная
  • Неструктурированная
  • Полуструктурированная

Структурированная форма

Данные, которые могут храниться, быть доступными и обработанными в форме с фиксированным форматом называются структурированными. За продолжительное время компьютерные науки достигли больших успехов в совершенствовании техник для работы с этим типом данных (где формат известен заранее) и научились извлекать пользу. Однако уже сегодня наблюдаются проблемы, связанные с ростом объемов до размеров, измеряемых в диапазоне нескольких зеттабайтов.

1 зеттабайт соответствует миллиарду терабайт

Глядя на эти числа, нетрудно убедиться в правдивости термина Big Data и трудностях сопряженных с обработкой и хранением таких данных.

Данные, хранящиеся в реляционной базе — структурированы и имеют вид ,например, таблицы сотрудников компании

Неструктурированная форма

Данные неизвестной структуры классифицируются как неструктурированные. В дополнении к большим размерам, такая форма характеризуется рядом сложностей для обработки и извлечении полезной информации. Типичный пример неструктурированных данных — гетерогенный источник, содержащий комбинацию простых текстовых файлов, картинок и видео. Сегодня организации имеют доступ к большому объему сырых или неструктурированных данных, но не знают как извлечь из них пользу.

Примером такой категории Big Data является результат Гугл поиска:

Полуструктурированная форма

Эта категория содержит обе описанные выше, поэтому полуструктурированные данные обладают некоторой формой, но в действительности не определяются с помощью таблиц в реляционных базах. Пример этой категории — персональные данные, представленные в XML файле.

Prashant RaoMale35 Seema R.Female41 Satish ManeMale29 Subrato RoyMale26 Jeremiah J.Male35

Характеристики Big Data

Рост Big Data со временем:

Синим цветом представлены структурированные данные (Enterprise data), которые сохраняются в реляционных базах. Другими цветами — неструктурированные данные из разных источников (IP-телефония, девайсы и сенсоры, социальные сети и веб-приложения).

В соответствии с Gartner, большие данные различаются по объему, скорости генерации, разнообразию и изменчивости. Рассмотрим эти характеристики подробнее.

  1. Объем. Сам по себе термин Big Data связан с большим размером. Размер данных — важнейший показатель при определении возможной извлекаемой ценности. Ежедневно 6 миллионов людей используют цифровые медиа, что по предварительным оценкам генерирует 2.5 квинтиллиона байт данных. Поэтому объем — первая для рассмотрения характеристика.
  2. Разнообразие — следующий аспект. Он ссылается на гетерогенные источники и природу данных, которые могут быть как структурированными, так и неструктурированными. Раньше электронные таблицы и базы данных были единственными источниками информации, рассматриваемыми в большинстве приложений. Сегодня же данные в форме электронных писем, фото, видео, PDF файлов, аудио тоже рассматриваются в аналитических приложениях. Такое разнообразие неструктурированных данных приводит к проблемам в хранении, добыче и анализе: 27% компаний не уверены, что работают с подходящими данными.
  3. Скорость генерации. То, насколько быстро данные накапливаются и обрабатываются для удовлетворения требований, определяет потенциал. Скорость определяет быстроту притока  информации из источников — бизнес процессов, логов приложений, сайтов социальных сетей и медиа, сенсоров, мобильных устройств. Поток данных огромен и непрерывен во времени.
  4. Изменчивость описывает непостоянство данных в некоторые моменты времени, которое усложняет обработку и управление. Так, например, большая часть данных неструктурирована по своей природе.

Big Data аналитика: в чем польза больших данных

Продвижение товаров и услуг: доступ к данным из поисковиков и сайтов, таких как Facebook и Twitter, позволяет предприятиям точнее разрабатывать маркетинговые стратегии.

Улучшение сервиса для покупателей: традиционные системы обратной связи с покупателями заменяются на новые, в которых Big Data и обработка естественного языка применяется для чтения и оценки отзыва покупателя.

Расчет риска, связанного с выпуском нового продукта или услуги.

Операционная эффективность: большие данные структурируют, чтобы быстрее извлекать нужную информацию и оперативно выдавать точный результат. Такое объединение технологий Big Data и хранилищ помогает организациям оптимизировать работу с редко используемой информацией.

Интересные статьи:

neurohive.io

Что такое Big data: собрали всё самое важное о больших данных

Только ленивый не говорит о Big data, но что это такое и как это работает — понимает вряд ли. Начнём с самого простого — терминология. Говоря по-русски, Big data — это различные инструменты, подходы и методы обработки как структурированных, так и неструктурированных данных для того, чтобы их использовать для конкретных задач и целей.

Неструктурированные данные — это информация, которая не имеет заранее определённой структуры или не организована в определённом порядке.

Термин «большие данные» ввёл редактор журнала Nature Клиффорд Линч ещё в 2008 году в спецвыпуске, посвящённом взрывному росту мировых объёмов информации. Хотя, конечно, сами большие данные существовали и ранее. По словам специалистов, к категории Big data относится большинство потоков данных свыше 100 Гб в день.

Big data — простыми словами

В современном мире Big data — социально-экономический феномен, который связан с тем, что появились новые технологические возможности для анализа огромного количества данных.

Для простоты понимания представьте супермаркет, в котором все товары лежат не в привычном вам порядке. Хлеб рядом с фруктами, томатная паста около замороженной пиццы, жидкость для розжига напротив стеллажа с тампонами, на котором помимо прочих стоит авокадо, тофу или грибы шиитаке. Big data расставляют всё по своим местам и помогают вам найти ореховое молоко, узнать стоимость и срок годности, а еще — кто, кроме вас, покупает такое молоко и чем оно лучше молока коровьего.

Технология Big data

Огромные объёмы данных обрабатываются для того, чтобы человек мог получить конкретные и нужные ему результаты для их дальнейшего эффективного применения.

Фактически, Big data — это решение проблем и альтернатива традиционным системам управления данными.

Техники и методы анализа, применимые к Big data по McKinsey:

  1. Data Mining;
  2. Краудсорсинг;
  3. Смешение и интеграция данных;
  4. Машинное обучение;
  5. Искусственные нейронные сети;
  6. Распознавание образов;
  7. Прогнозная аналитика;
  8. Имитационное моделирование;
  9. Пространственный анализ;
  10. Статистический анализ;
  11. Визуализация аналитических данных.

Горизонтальная масштабируемость, которая обеспечивает обработку данных — базовый принцип обработки больших данных. Данные распределены на вычислительные узлы, а обработка происходит без деградации производительности. McKinsey включил в контекст применимости также реляционные системы управления и Business Intelligence.

Технологии:

  1. NoSQL;
  2. MapReduce;
  3. Hadoop;
  4. R;
  5. Аппаратные решения.

Для больших данных выделяют традиционные определяющие характеристики, выработанные Meta Group ещё в 2001 году, которые называются «Три V»:

  1. Volume — величина физического объёма.
  2. Velocity — скорость прироста и необходимости быстрой обработки данных для получения результатов.
  3. Variety — возможность одновременно обрабатывать различные типы данных.

Big data: применение и возможности

Объёмы неоднородной и быстро поступающей цифровой информации обработать традиционными инструментами невозможно. Сам анализ данных позволяет увидеть определённые и незаметные закономерности, которые не может увидеть человек. Это позволяет оптимизировать все сферы нашей жизни — от государственного управления до производства и телекоммуникаций.

Например, некоторые компании ещё несколько лет назад защищали своих клиентов от мошенничества, а забота о деньгах клиента — забота о своих собственных деньгах.

Решения на основе Big data: «Сбербанк», «Билайн» и другие компании

У «Билайна» есть огромное количество данных об абонентах, которые они используют не только для работы с ними, но и для создания аналитических продуктов, вроде внешнего консалтинга или IPTV-аналитики. «Билайн» сегментировали базу и защитили клиентов от денежных махинаций и вирусов, использовав для хранения HDFS и Apache Spark, а для обработки данных — Rapidminer и Python.

Или вспомним «Сбербанк» с их старым кейсом под названием АС САФИ. Это система, которая анализирует фотографии для идентификации клиентов банка и предотвращает мошенничество. Система была внедрена ещё в 2014 году, в основе системы — сравнение фотографий из базы, которые попадают туда с веб-камер на стойках благодаря компьютерному зрению. Основа системы — биометрическая платформа. Благодаря этому, случаи мошенничества уменьшились в 10 раз.

Big data в мире

По данным компании IBS, к 2003 году мир накопил 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов). К 2008 году этот объем вырос до 0,18 зеттабайта (1 ЗБ = 1024 эксабайта), к 2011 году — до 1,76 зеттабайта, к 2013 году — до 4,4 зеттабайта. В мае 2015 года глобальное количество данных превысило 6,5 зеттабайта (подробнее).

К 2020 году, по прогнозам, человечество сформирует 40-44 зеттабайтов информации. А к 2025 году вырастет в 10 раз, говорится в докладе The Data Age 2025, который был подготовлен аналитиками компании IDC. В докладе отмечается, что большую часть данных генерировать будут сами предприятия, а не обычные потребители.

Аналитики исследования считают, что данные станут жизненно-важным активом, а безопасность — критически важным фундаментом в жизни. Также авторы работы уверены, что технология изменит экономический ландшафт, а обычный пользователь будет коммуницировать с подключёнными устройствами около 4800 раз в день. 

Рынок Big data в России

В 2017 году мировой доход на рынке Big date должен достигнуть $150,8 млрд, что на 12,4% больше, чем в прошлом году. В мировом масштабе российский рынок услуг и технологий big data ещё очень мал. В 2014 году американская компания IDC оценивала его в $340 млн. В России технологию используют в банковской сфере, энергетике, логистике, государственном секторе, телекоме и промышленности.

Что касается рынка данных, он в России только зарождается. Внутри экосистемы RTB поставщиками данных выступают владельцы программатик-платформ управления данными (DMP) и бирж данных (data exchange). Телеком-операторы в пилотном режиме делятся с банками потребительской информацией о потенциальных заёмщиках.

Обычно большие данные поступают из трёх источников:

  1. Интернет (соцсети, форумы, блоги, СМИ и другие сайты);
  2. Корпоративные архивы документов;
  3. Показания датчиков, приборов и других устройств.  

Big data в банках

Помимо системы, описанной выше, в стратегии «Сбербанка» на 2014-2018 гг. говорится о важности анализа супермассивов данных для качественного обслуживания клиентов, управления рисками и оптимизации затрат. Сейчас банк использует Big data для управления рисками, борьбы с мошенничеством, сегментации и оценки кредитоспособности клиентов, управления персоналом, прогнозирования очередей в отделениях, расчёта бонусов для сотрудников и других задач.

«ВТБ24» пользуется большими данными для сегментации и управления оттоком клиентов, формирования финансовой отчётности, анализа отзывов в соцсетях и на форумах. Для этого он применяет решения Teradata, SAS Visual Analytics и SAS Marketing Optimizer.

«Альфа-Банк» за большие данные взялся в 2013 году. Банк использует технологии для анализа соцсетей и поведения пользователей сайта, оценки кредитоспособности, прогнозирования оттока клиентов, персонализации контента и вторичных продаж. Для этого он работает с платформами хранения и обработки Oracle Exadata, Oracle Big data Appliance и фреймворком Hadoop.

«Тинькофф-банк» с помощью EMC Greenplum, SAS Visual Analytics и Hadoop управляет рисками, анализирует потребности потенциальных и существующих клиентов. Большие данные задействованы также в скоринге, маркетинге и продажах.

Big data в бизнесе

Для оптимизации расходов внедрил Big data и «Магнитогорский металлургический комбинат», который является крупным мировым производителем стали. В конце прошлого года они внедрили сервис под названием «Снайпер», который оптимизирует расход ферросплавов и других материалов при производстве. Сервис обрабатывает данные и выдаёт рекомендации для того, чтобы сэкономить деньги на производстве стали. 

Большие данные и будущее — одна из самых острых тем для обсуждения, ведь в основе коммерческой деятельности лежит информация. Идея заключается в том, чтобы «скормить» компьютеру большой объем данных и заставить его отыскивать типовые алгоритмы, которые не способен увидеть человек, или принимать решения на основе процента вероятности в том масштабе, с которым прекрасно справляется человек, но который до сих пор не был доступен для машин, или, возможно, однажды — в таком масштабе, с которым человек не справится никогда.

Чтобы оптимизировать бизнес-процессы,«Сургутнефтегаз» воспользовался платформой данных и приложений «in-memory» под названием SAP HANA, которая помогает в ведение бизнеса в реальном времени. Платфторма автоматизирует учёт продукции, расчёт цен, обеспечивает сотрудников информацией и экономит аппаратные ресурсы. Как большие данные перевернули бизнес других предприятий — вы можете прочитать здесь.

Big data в маркетинге

Благодаря Big data маркетологи получили отличный инструмент, который не только помогает в работе, но и прогнозирует результаты. Например, с помощью анализа данных можно вывести рекламу только заинтересованной в продукте аудитории, основываясь на модели RTB-аукциона.

Big data позволяет маркетологам узнать своих потребителей и привлекать новую целевую аудиторию, оценить удовлетворённость клиентов, применять новые способы увеличения лояльности клиентов и реализовывать проекты, которые будут пользоваться спросом.

Сервис Google.Trends вам в помощь, если нужен прогноз сезонной активности спроса. Всё, что надо — сопоставить сведения с данными сайта и составить план распределения рекламного бюджета.

Биг дата изменит мир?

От технологий нам не спрятаться, не скрыться. Big data уже меняет мир, потихоньку просачиваясь в наши города, дома, квартиры и гаджеты. Как быстро технология захватит планету — сказать сложно. Одно понятно точно — держись моды или умри в отстое, как говорил Боб Келсо в сериале «Клиника». 

Источник: Rusebase

intalent.pro

Что такое Big data, как это работает и почему все носятся с данными как с писаной торбой

Только ленивый не говорит о Big data, но что это такое и как это работает — понимает вряд ли. Начнём с самого простого — терминология. Говоря по-русски, Big data — это различные инструменты, подходы и методы обработки как структурированных, так и неструктурированных данных для того, чтобы их использовать для конкретных задач и целей.

Неструктурированные данные — это информация, которая не имеет заранее определённой структуры или не организована в определённом порядке.

Термин «большие данные» ввёл редактор журнала Nature Клиффорд Линч ещё в 2008 году в спецвыпуске, посвящённом взрывному росту мировых объёмов информации. Хотя, конечно, сами большие данные существовали и ранее. По словам специалистов, к категории Big data относится большинство потоков данных свыше 100 Гб в день.

Сегодня под этим простым термином скрывается всего два слова — хранение и обработка данных.

В современном мире Big data — социально-экономический феномен, который связан с тем, что появились новые технологические возможности для анализа огромного количества данных.

Для простоты понимания представьте супермаркет, в котором все товары лежат не в привычном вам порядке. Хлеб рядом с фруктами, томатная паста около замороженной пиццы, жидкость для розжига напротив стеллажа с тампонами, на котором помимо прочих стоит авокадо, тофу или грибы шиитаке. Big data расставляют всё по своим местам и помогают вам найти ореховое молоко, узнать стоимость и срок годности, а еще — кто, кроме вас, покупает такое молоко и чем оно лучше молока коровьего.

Кеннет Кукьер: Большие данные — лучшие данные

Огромные объёмы данных обрабатываются для того, чтобы человек мог получить конкретные и нужные ему результаты для их дальнейшего эффективного применения.

Фактически, Big data — это решение проблем и альтернатива традиционным системам управления данными.

Техники и методы анализа, применимые к Big data по McKinsey:

Технологии:

  • NoSQL;
  • MapReduce;
  • Hadoop;
  • R;
  • Аппаратные решения.

Для больших данных выделяют традиционные определяющие характеристики, выработанные Meta Group ещё в 2001 году, которые называются «Три V»:

  1. Volume — величина физического объёма.
  2. Velocity — скорость прироста и необходимости быстрой обработки данных для получения результатов.
  3. Variety — возможность одновременно обрабатывать различные типы данных.

Big data: применение и возможности

Объёмы неоднородной и быстро поступающей цифровой информации обработать традиционными инструментами невозможно. Сам анализ данных позволяет увидеть определённые и незаметные закономерности, которые не может увидеть человек. Это позволяет оптимизировать все сферы нашей жизни — от государственного управления до производства и телекоммуникаций.

Например, некоторые компании ещё несколько лет назад защищали своих клиентов от мошенничества, а забота о деньгах клиента — забота о своих собственных деньгах.

Сюзан Этлиджер: Как быть с большими данными?

Big data в мире

По данным компании IBS, к 2003 году мир накопил 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов). К 2008 году этот объем вырос до 0,18 зеттабайта (1 ЗБ = 1024 эксабайта), к 2011 году — до 1,76 зеттабайта, к 2013 году — до 4,4 зеттабайта. В мае 2015 года глобальное количество данных превысило 6,5 зеттабайта.

К 2020 году, по прогнозам, человечество сформирует 40-44 зеттабайтов информации. А к 2025 году вырастет в 10 раз, говорится в докладе The Data Age 2025, который был подготовлен аналитиками компании IDC. В докладе отмечается, что большую часть данных генерировать будут сами предприятия, а не обычные потребители.

Аналитики исследования считают, что данные станут жизненно-важным активом, а безопасность — критически важным фундаментом в жизни. Также авторы работы уверены, что технология изменит экономический ландшафт, а обычный пользователь будет коммуницировать с подключёнными устройствами около 4800 раз в день.

Как заставить большие данные работать на ваш бизнес

Data management platform (DMP) – система использования больших данных, делает ровно то же самое, но на основе информации из корпоративной CRM и программы лояльности и с помощью сбора открытых сведений о покупателе в сети.

DMP позволяет масштабировать экспертизу опытных продавцов, вести разговор с каждым покупателем индивидуально – даже если таковых миллионы. Она дает возможность предсказывать потребительское поведение точнее, чем это делают продавцы.

Как это работает?
  • Во-первых, ищет корреляцию между профилем потребителя – набором его социально-демографических/поведенческих характеристик и той или иной реакцией на бренд, модель, способы маркетинговых предложений. Цель аккумулирования больших данных – поиск статистически наиболее точных закономерностей.
  • Во-вторых, таргетирует потребителей в зависимости от их реакций. И выдвигает предположение, что потребитель с таким-то набором характеристик, скорее всего, отреагирует на предложение X позитивно при условиях A, B и C. Это и дает возможность делать ему индивидуальное предложение. Позитивный отклик на него составляет в хорошо работающей системе 50% и более.
  • В-третьих, DMP позволяет в реальном времени отработать большое число гипотез потребительской реакции на всех этапах продвижения товара, а также «собрать» из них маркетинговую стратегию. И, что не менее важно, постоянно ее совершенствовать – то есть учиться на потоке событий.
Это доступно всем

Крупные компании давно стремились к математически точному маркетингу: именно в их недрах была создана концепция data driven marketing – маркетинга, основанного на данных и точных цифрах, а не на ощущениях маркетинговых специалистов. Но о настоящем верифицируемом DDM стало возможно говорить только с практическим применением Big data в бизнесе.

Сегодня технологии на основе больших данных доступны не только гигантам, но среднему и даже малому бизнесу.

В нашей стране цифровые платформы, работающие с большими данными, применяются специализированными торговыми сетями: обувными, косметическими, продовольственными, которым важно контролировать эффективность маркетинговых кампаний.

DMP активно используют также поставщики автомобилей и электроники. По двум причинам:

  • С одной стороны, они обычно связаны с иностранными материнскими компаниями, которые быстрее внедряют перспективные новшества.
  • С другой на дворе кризис, а задачу продавать никто не снимал.

Все более широко применяют цифровые платформы розничные банки – они нуждаются в новых вкладчиках и надежных заемщиках, телекоммуникационные компании – им важно находить новые способы завоевания преимущества в конкурентных войнах. Появились первые кейсы в B2B.

Воронка релевантности

DMP очень эффективна при «активном» маркетинговом режиме поиска новых клиентов с помощью рекламных кампаний. Она позволяет сформировать более релевантную воронку продаж и постоянно ее совершенствовать. Воронка продаж подразумевает выявление максимума интересующихся брендом и перевод максимума из них в категорию покупателей.

По отношению к товару люди делятся на несколько категорий. Кто-то пока не знает о существовании бренда, кто-то знает и интересуется, кто-то уже что-то просматривал в интернет-магазине – но «положил» обратно, а кто-то и приобретал там товары.

Первым нужно сообщить о товаре, вторым — показать модели, которые с высокой вероятностью вызовут позитивный отклик, третьим — предложить скидки и другие дополнительные стимулы для покупки, а четвертых проинформировать о сопутствующих товарах и новых моделях взамен той, что они уже приобретали.

Пример 1. Как обувной бренд увеличил продажи в 2 раза

Вот как строил воронку продаж на основе больших данных один из обувных брендов. Он обратился для помощи в маркетинговое агентство, так как посчитал, что не обладает достаточной экспертизой, чтобы сделать эту работу своими силами.    

Первым делом была разработана стратегия привлечения, цель которой — убедить целевую аудиторию, что бренд ей подходит. Были взяты данные из CRM, программы лояльности, на основе данных о покупателях самой компании и данных, найденных системой в сетевом «паблике», выделены основные типажи потребителей.   

Далее, применительно к каждому из основных типажей:

  • Были выявлены каналы продвижения, которые для них наиболее релевантны;
  • Отобраны сети, которые умеют показывать баннеры именно в этих каналах;
  • Разработано несколько типов креативных решений. И стратегия привлечения начала реализовываться.     

Данные о просмотрах баннеров стали поступать в DMP – появилась четкая картина того, какие каналы и креативные решения более эффективны, а какие – менее, какие группы потребителей наиболее заинтересованы в бренде, а какие вовсе не заинтересовались. Были отброшены группы и каналы, на которые не имеет смысла расходовать бюджет.  

На основе этой информации разработана стратегия продаж, и компания совместно с рекламным агентством приступили к ее реализации.  

Что сделала система:

  1. Проанализировала тех, кто перешел на сайт — заинтересовался товарами (она просила потребителя оставить информацию о себе);
  2. «Вычислила» индивидуальные предложения: потребителю предлагалась обувь, которая заинтересует именно его;
  3. По реакции на эти предложения вырабатывались дополнительные стимулы — скидки.   

Виды скидок определялись на основе статистики: она позволяет сказать, какой социально-демографический и потребительский типаж при каком уровне цены чаще всего покупал обувь.

Воронка с цифровой оптимизацией функционирует уже больше года, благодаря ей, обувной бренд увеличил объёмы продаж более чем в два раза.

Выбираем канал коммуникации

Потенциальный покупатель уже предпринял какие-то действия: скачал брошюру о бренде, задает вопросы по тем или иным моделям? Следовательно, он уже готов в коммуникации через email, смс, телефонные звонки. 

DMP делает сегментацию: какой канал связи предпочтительнее для клиента. Для этого анализируются отклики: какой потребительский типаж по какому каналу склонен отвечать. За счет этого происходит оптимизация каналов коммуникации.

Это дает существенную экономию. Без сегментации нужно было бы обзвонить более 10 тыс. клиентов. Сегментация позволяет начать с тех, кто максимально склонен к покупке и готов общаться по телефону и отсечь тех, кому звонки могут нанести ущерб.

Большое значение имеет также сегментирование по каналам коммуникации. Оно позволяет понять, через какой канал лучше «доставлять» предложение. Важно также понимать правильный момент для предложения – это может быть не только время суток, но и время накануне или после некоего события в жизни потенциального покупателя. Если коммуникация делается в правильный момент, то эффект от нее максимален.

К «вычислению» формы и момента коммуникации предъявляется повышенные требования, ведь если потенциальному покупателю предложение донесено нерелевантным способом, это вызывает отрицательные эмоции.

Правило торговли: донесение нерелевантного предложения обходится дороже, чем недонесение релевантного.

Смотрите, кто пришел

В пассивном маркетинговом режиме – режиме ожидания клиентов DMP не менее эффективна. Она позволяет не только анализировать пришедших на сайт, «вычислять» для каждого посетителя индивидуальные маркетинговые предложения, но и понимать, кто в принципе является целевой аудиторией, сегментировать ее – и переходить к активным маркетинговым действиям не фронтально, а в отношении конкретных целевых аудиторий.

На корпоративных сайтах есть счетчики – они фиксируют лишь, со скольких IP-адресов заходили, сколько страниц посетили и так далее. Использование DMP позволяет получить более содержательную информацию.

Пример 2. Как отвоевать клиентов у конкурента

На сайте одного из поставщиков автомобилей была реализована тестовая рекламная кампания без таргетирования потребителей. Целью было собрать максимально широкий спектр данных о посетителях, а затем выделить их сегменты.  

Кампания проводилась три месяца. За это время была собрана достаточно подробная информация о потребителях – те данные, которыми они сами были готовы делиться, дополненные сведениями из социальных сетей и других открытых источников. 

Автомобильная фирма и ее маркетинговые консультанты увидели, на каких группах потребителей рекламная кампания действует лучше всего, а какие нуждаются в дополнительных стимулах. В результате была выполнена «нарезка» кластеров по типовым потребительским профилям. 

На следующем шаге спроектировали рекламные каналы, чтобы найти потенциальных потребителей сходных типажей. Затем было запущено несколько рекламных программ, ориентированных на выделенные целевые аудитории. Продажи автомобилей, благодаря этому, не сократились, тогда как у других участников рынка они снизились примерно на 15%.

Кстати, при реализации кейса обнаружилось немало интересного – о чем ранее маркетологам не было известно. Например, выяснилось, что на сайт этого поставщика автомобилей приходит немало владельцев машин одной и конкурирующих марок. Оказалось, что это одна из самых перспективных целевых аудиторий – которая ранее не отрабатывалась.

Пример 3. Как использовать то, что люди хотят общаться

Один из поставщиков автомобилей отслеживал объявления на различных сайтах, где продаются автомобили. Он видел клиентов, которые продают его автомобили, и в этот момент делали ему предложение трейд-ин, предлагали тест-драйв новой модели. Отклик по таким коммуникациям доходил до 50%! 

Человек, как правило, готов общаться, даже если он не готов покупать новую машину. Он говорит: «Почему я продаю? Потому что у меня деньги закончились». У него в этот момент нет негатива. В такой ситуации часто происходит запись на тест-драйв – даже если клиент не собирался покупать машину.

Пример 4. Поиск клиентов по аналогии

Одна из торговых сетей, продающая джинсы, сформировала с помощью цифровой платформы целевые профили потенциальных покупателей на информации, ранее собранной в рамках программы лояльности. Потом в Сети были найдены люди с аналогичными данными и сделана рассылка предложений.

Эффективность увеличилась на 25% по сравнению со «слепой» рассылкой, хотя таргетирование рассылки было очень поверхностное.

Пример 5. Как математечески вычислить лояльного клиента

Анализировалась база транзакций пользователей банковских услуг. Экспертным и математическим способами выделили критерии лояльного и заинтересованного в новых продуктах клиента, научили систему их искать.  Продажи продуктов банка без привлечения новых клиентов выросли на 20%. 

Система кросс-сейла была использована «в тандеме» с системой продаж банковских продуктов новым пользователям. Во внешней среде были найдены потребители, аналогичные по своим характеристикам тем, кого заинтересовал кросс-сейл, и по отношению к ним проведены целенаправленные маркетинговые кампании. Банк получил большое число надежных заемщиков и новых вкладчиков.

Меняйтесь данными

Базовые математические алгоритмы, используемые в DMP, общие. Например, это могут быть многоуровневые, ветвистые деревья решений. Или модные ныне нейронные сети – они выглядят загадочно, и для кого-то из заказчиков это плюс. Но при этом их трудно интерпретировать – в отличие от тех же деревьев решений, а понимать, что и как делает цифровая платформа, для заказчика важно, особенно на этапе внедрения системы.

Реализация алгоритмов – сугубо индивидуальная работа. Никакого единого для всех, масштабируемого решения для любых видов бизнеса не может быть.

Потребительская статистика очень специфична для каждой компании. На продажи влияет много факторов, которые порой даже трудно себе представить: расположение офиса, люди, которые работают в компании, логотип – у одних он вызывает доверие, у других — нет.

Потому главная проблема при создании эффективной цифровой платформы – дефицит данных. Им не страдают банки и телекоммуникационные компании, которые просто в силу требований регуляторов обязаны вести подробные пользовательские профили. Нет дефицита в сетях бутиков – они привыкли к индивидуальной работе с потребителями. Вообще, чем более персонифицировано компания работает с потребителями, тем лучше у нее обстоят дела с данными.

А вот в массовом сегменте торговли, как правило, дела обстоят хуже. У большинства же B2C-компаний информационно бедные профили клиентов. Даже в картах лояльности часто очень мало данных.

Если собственных данных недостаточно, нужно их собирать – в том числе с помощью цифровой платформы. На начальном этапе можно воспользоваться внешними данными. Это данные из социальных сетей, а также данные других компаний.

Обмен знаниями – очень перспективное направление, от которого выигрывают обменивающиеся. Например, одна компания говорит другой: у нас есть люди, которые купили наши товары, вполне вероятно, что они купят и ваш. Это, кстати, позволяет совместно найти маркетинговые события, которые позволят увеличить продажи обеим фирмам.

При этом речь не идет о передаче персональных данных. Для анализа нужны социально-демографические и потребительские характеристики покупателей. Важно, какое у него образование, семейное положение. Насколько он продвинут как потребитель определенных типов товаров, активен ли в интернете…

Но чужие данные не могут заменить собственные. Чтобы результат был релевантным, ядро данных должно быть «внутреннее».

Big data в маркетинге

Благодаря Big data маркетологи получили отличный инструмент, который не только помогает в работе, но и прогнозирует результаты. Например, с помощью анализа данных можно вывести рекламу только заинтересованной в продукте аудитории, основывая модели RTB-аукциона.

Big data позволяет маркетологам узнать своих потребителей и привлекать новую целевую аудиторию, оценить удовлетворённость клиентов, применять новые способы увеличения лояльности клиентов и реализовывать проекты, которые будут пользоваться спросом.

Сервис Google.Trends вам в помощь, если нужен прогноз сезонной активности спроса. Всё, что надо — сопоставить сведения с данными сайта и составить план распределения рекламного бюджета.

Применение данных в рекламных размещениях

В любом рекламном размещении маркетологи задают 2 основных вопроса: КОМУ и ЧТО.

Кому конкретно (какой целевой аудитории) показать рекламное сообщение и что именно должно содержаться в нем, чтобы достигнуть выполнения конкретной маркетинговой задачи, будь то повышение узнаваемости или повышение продаж с конкретного канала.

Технологии по работе с данными помогают отвечать на эти вопросы и достигать лучших маркетинговых результатов. На примере нашего кейса с компанией Asus по продвижению игровых видеокарт разберем несколько подходов, как технологии анализа больших данных позволяют ответить на вопрос «Кому показать рекламу».

Во-первых, это конечно использование собственных данных (1st party data) рекламодателя для таргетинга в рекламных кампаниях. В случае с Asus в таргетинг попали пользователи с целевого промо-сайта и соответствующих разделов основного сайта.

Во-вторых, это применение данных для поиска целевой аудитории исходя из заданных заранее (сформулированных маркетологом или аналитиком) критериев. В случае Asus мы собрали две аудитории: тинейджеров и геймеров.

В-третьих, конечно же, это применение предиктивных алгоритмов для поиска похожей аудитории по обучающейся выборке, так называемый Look-alike. Для Asus мы на основе 1st party данных сформировали look-alike аудиторию.

Ниже приведу сводную таблицу маркетинговых результатов в разрезе каждого типа таргетинга.

Данные также могут помочь ответить на вопрос «Что показать». Особенно ценность применения больших данных растет, когда нужно выбрать для каждого конкретного пользователя, какой именно товар или услугу нужно показать в баннере. Наиболее частые случае применения таких технологий – в динамическом ретаргетинге, товарных рекомендациях на сайте и в персонализации email-рассылок.

Применение алгоритмов персонализации позволяет увеличить ROI каждого канала на 15-100%+.

Кадровая голодовка

Еще в 2011 году McKinsey Global Institute в своем отчете «Big data: The next frontier for innovation, competition, and productivity» предсказал нехватку только в одних США 140-190 тысяч дата-аналитиков в области больших данных (Data Science специалистов) и более 1,5 млн руководителей, которые будут обладать необходимыми навыками для применения информации, добытой при помощи анализа больших данных, с целью повышения бизнес-показателей своей компании.

Этот факт предоставляет уникальный шанс многим специалистам, которые стремятся к профессиональному (и материальному) росту. Тем, кто готов учиться и не боится выходить из зоны комфорта. Это особенно актуально сегодня, поскольку в период кризиса спрос на специалистов, которые приносят понятный value для бизнеса, только растет.

Так кто же такой специалист в data-менеджменте – маркетолог или математик? Когда мне задают такой вопрос, я задаю встречный: «Как в наше время маркетолог может не знать математику?». В моем представлении data-специалист – это маркетолог с хорошим пониманием математики на уровне 2 курса университет. Еще неплохо бы иметь технический склад ума, чтобы понимать ограничения, накладываемые конкретными технологиями по работе с данными.

75% компаний заявили, что будут увеличивать инвестиции в большие данные.

– Avanade.

Для того чтобы стать частью элиты нового времени, тех, кто на «ты» с технологиями больших данных, необходимо начать с изменения своего сознания и сформировать подход к принятию решений, основываясь на цифрах. И, если вы решили встать на эту стезю, вам обязательно нужно прочесть книгу «Lean Analytics: Use Data to Build a Better Startup Faster».

Чтобы полноценно работать? нужно, как минимум, понимать несколько ключевых математических моментов: что такое стандартное отклонение и понятие доверительных интервалов (крайне важно для интерпретации результатов A/B тестирования) и, конечно же, базовых понятий теории вероятности. Для этих целей есть отличный сервис, который в доступной даже гуманитариям форме учит этим знаниями.

Далее следует разобраться в основных концепциях и кейсах Big Data. Для этих целей всем рекомендую к прочтению книгу «Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die».

Для тех же, кто хочет развиваться как хардкорный data-scientist, на известном сервисе Coursera есть много курсов, посвященных Data Science/Machine Learning, а сервис DataCamp вообще специализируется обучении «ученых по данным».

www.buh24.com.ua


Смотрите также