Прикладные системы на основе парадигмы больших данных. Big Data — что такое системы больших данных? Развитие технологий Big Data. Хранение и управление

Постоянное ускорение роста объема данных является неотъемлемым элементом современных реалий. Социальные сети, мобильные устройства, данные с измерительных устройств, бизнес-информация – это лишь несколько видов источников, способных генерировать гигантские массивы данных.

В настоящее время термин Big Data (Большие данные) стал довольно распространенным. Далеко не все еще осознают то, насколько быстро и глубоко технологии обработки больших массивов данных меняют самые различные аспекты жизни общества. Перемены происходят в различных сферах, порождая новые проблемы и вызовы, в том числе и в сфере информационной безопасности, где на первом плане должны находиться такие важнейшие ее аспекты, как конфиденциальность, целостность, доступность и т. д.

К сожалению, многие современные компании прибегают к технологии Big Data, не создавая для этого надлежащей инфраструктуры, которая смогла бы обеспечить надежное хранение огромных массивов данных, которые они собирают и хранят. С другой стороны, в настоящее время стремительно развивается технология блокчейн, которая призвана решить эту и многие другие проблемы.

Что такое Big Data?

По сути, определение термина лежит на поверхности: «большие данные» означают управление очень большими объемами данных, а также их анализ. Если смотреть шире, то это информация, которая не поддается обработке классическими способами по причине ее больших объемов.

Сам термин Big Data (большие данные) появился относительно недавно. Согласно данным сервиса Google Trends , активный рост популярности термина приходится на конец 2011 года:

В 2010 году уже стали появляться первые продукты и решения, непосредственно связанные с обработкой больших данных. К 2011 году большинство крупнейших IT-компаний, включая IBM, Oracle, Microsoft и Hewlett-Packard, активно используют термин Big Data в своих деловых стратегиях. Постепенно аналитики рынка информационных технологий начинают активные исследования данной концепции.

В настоящее время этот термин приобрел значительную популярность и активно используется в самых различных сферах. Однако нельзя с уверенностью сказать, что Big Data – это какое-то принципиально новое явление – напротив, большие источники данных существуют уже много лет. В маркетинге ими можно назвать базы данных по покупкам клиентов, кредитным историям, образу жизни и т. д. На протяжении многих лет аналитики использовали эти данные, чтобы помогать компаниям прогнозировать будущие потребности клиентов, оценивать риски, формировать потребительские предпочтения и т. д.

В настоящее время ситуация изменилась в двух аспектах:

— появились более сложные инструменты и методы для анализа и сопоставления различных наборов данных;
— инструменты анализа дополнились множеством новых источников данных, что обусловлено повсеместным переходом на цифровые технологии, а также новыми методами сбора и измерения данных.

Исследователи прогнозируют, что технологии Big Data активнее всего будут использоваться в производстве, здравоохранении, торговле, госуправлении и в других самых различных сферах и отраслях.

Big Data – это не какой-либо определенный массив данных, а совокупность методов их обработки. Определяющей характеристикой для больших данных является не только их объем, но также и другие категории, характеризующие трудоемкие процессы обработки и анализа данных.

В качестве исходных данных для обработки могут выступать, например:

— логи поведения интернет-пользователей;
— Интернет вещей;
— социальные медиа;
— метеорологические данные;
— оцифрованные книги крупнейших библиотек;
— GPS-сигналы из транспортных средств;
— информация о транзакциях клиентов банков;
— данные о местонахождении абонентов мобильных сетей;
— информация о покупках в крупных ритейл-сетях и т.д.

Со временем объемы данных и количество их источников непрерывно растет, а на этом фоне появляются новые и совершенствуются уже имеющиеся методы обработки информации.

Основные принципы Big Data:

— Горизонтальная масштабируемость – массивы данных могут быть огромными и это значит, что система обработки больших данных должна динамично расширяться при увеличении их объемов.
— Отказоустойчивость – даже при сбое некоторых элементов оборудования, вся система должна оставаться работоспособной.
— Локальность данных. В больших распределенных системах данные обычно распределяются по значительному числу машин. Однако по мере возможности и в целях экономии ресурсов данные часто обрабатываются на том же сервере, что и хранятся.

Для стабильной работы всех трех принципов и, соответственно, высокой эффективности хранения и обработки больших данных необходимы новые прорывные технологии, такие как, например, блокчейн.

Для чего нужны большие данные?

Сфера применения Big Data постоянно расширяется:

— Большие данные можно использовать в медицине. Так, устанавливать диагноз пациенту можно не только опираясь на данные анализа истории болезни, но также принимая во внимание опыт других врачей, сведения об экологической ситуации района проживания больного и многие другие факторы.
— Технологии Big Data могут использоваться для организации движения беспилотного транспорта.
— Обрабатывая большие массивы данных можно распознавать лица на фото- и видеоматериалах.
— Технологии Big Data могут быть использованы ритейлерами – торговые компании могут активно использовать массивы данных из социальных сетей для эффективной настройки своих рекламных кампаний, которые могут быть максимально ориентированы под тот или иной потребительский сегмент.
— Данная технология активно используется при организации предвыборных кампаний, в том числе для анализа политических предпочтений в обществе.
— Использование технологий Big Data актуально для решений класса гарантирования доходов (RA) , которые включают в себя инструменты обнаружения несоответствий и углубленного анализа данных, позволяющие своевременно выявить вероятные потери, либо искажения информации, способные привести к снижению финансовых результатов.
— Телекоммуникационные провайдеры могут агрегировать большие данные, в том числе о геолокации; в свою очередь эта информация может представлять коммерческий интерес для рекламных агентств, которые могут использовать ее для показа таргетированной и локальной рекламы, а также для ритейлеров и банков.
— Большие данные могут сыграть важную роль при решении открытия торговой точки в определенной локации на основе данных о наличии мощного целевого потока людей.

Таким образом наиболее очевидное практическое применение технологии Big Data лежит в сфере маркетинга. Благодаря развитию интернета и распространению всевозможных коммуникационных устройств поведенческие данные (такие как число звонков, покупательские привычки и покупки) становятся доступными в режиме реального времени.

Технологии больших данных могут также эффективно использоваться в финансах, для социологических исследований и во многих других сферах. Эксперты утверждают, что все эти возможности использования больших данных являются лишь видимой частью айсберга, поскольку в гораздо больших объемах эти технологии используются в разведке и контрразведке, в военном деле, а также во всем том, что принято называть информационными войнами.

В общих чертах последовательность работы с Big Data состоит из сбора данных, структурирования полученной информации с помощью отчетов и дашбордов, а также последующего формулирования рекомендаций к действию.

Рассмотрим вкратце возможности использования технологий Big Data в маркетинге. Как известно, для маркетолога информация – главный инструмент для прогнозирования и составления стратегии. Анализ больших данных давно и успешно применяется для определения целевой аудитории, интересов, спроса и активности потребителей. Анализ больших данных, в частности, позволяет выводить рекламу (на основе модели RTB-аукциона - Real Time Bidding) только тем потребителям, которые заинтересованы в товаре или услуге.

Применение Big Data в маркетинге позволяет бизнесменам:

— лучше узнавать своих потребителей, привлекать аналогичную аудиторию в Интернете;
— оценивать степень удовлетворенности клиентов;
— понимать, соответствует ли предлагаемый сервис ожиданиям и потребностям;
— находить и внедрять новые способы, увеличивающие доверие клиентов;
— создавать проекты, пользующиеся спросом и т. д.

Например, сервис Google.trends может указать маркетологу прогноз сезонной активности спроса на конкретный продукт, колебания и географию кликов. Если сопоставить эти сведения со статистическими данными, собираемыми соответствующим плагином на собственном сайте, то можно составить план по распределению рекламного бюджета с указанием месяца, региона и других параметров.

По мнению многих исследователей, именно в сегментации и использовании Big Data заключается успех предвыборной кампании Трампа. Команда будущего президента США смогла правильно разделить аудиторию, понять ее желания и показывать именно тот месседж, который избиратели хотят видеть и слышать. Так, по мнению Ирины Белышевой из компании Data-Centric Alliance, победа Трампа во многом стала возможной благодаря нестандартному подходу к интернет-маркетингу, в основу которого легли Big Data, психолого-поведенческий анализ и персонализированная реклама.

Политтехнологи и маркетологи Трампа использовали специально разработанную математическую модель, которая позволила глубоко проанализировать данные всех избирателей США систематизировать их, сделав сверхточный таргетинг не только по географическим признаками, но также и по намерениям, интересам избирателей, их психотипу, поведенческим характеристикам и т. д. После этого маркетологи организовали персонализированную коммуникацию с каждой из групп граждан на основе их потребностей, настроений, политических взглядов, психологических особенностей и даже цвета кожи, используя практически для каждого отдельного избирателя свой месседж.

Что касается Хиллари Клинтон, то она в своей кампании использовала «проверенные временем» методы, основанные на социологических данных и стандартном маркетинге, разделив электорат лишь на формально гомогенные группы (мужчины, женщины, афроамериканцы, латиноамериканцы, бедные, богатые и т. д.).

В результате выиграл тот, кто по достоинству оценил потенциал новых технологий и методов анализа. Примечательно, что расходы на предвыборную кампанию Хиллари Клинтон были в два раза больше, чем у ее оппонента:

Данные: Pew Research

Основные проблемы использования Big Data

Помимо высокой стоимости, одним из главных факторов, тормозящих внедрение Big Data в различные сферы, является проблема выбора обрабатываемых данных: то есть определения того, какие данные необходимо извлекать, хранить и анализировать, а какие – не принимать во внимание.

Еще одна проблема Big Data носит этический характер. Другими словами возникает закономерный вопрос: можно ли подобный сбор данных (особенно без ведома пользователя) считать нарушением границ частной жизни?

Не секрет, что информация, сохраняемая в поисковых системах Google и Яндекс, позволяет IT-гигантам постоянно дорабатывать свои сервисы, делать их удобными для пользователей и создавать новые интерактивные приложения. Для этого поисковики собирают пользовательские данные об активности пользователей в интернете, IP-адреса, данные о геолокации, интересах и онлайн-покупках, личные данные, почтовые сообщения и т. д. Все это позволяет демонстрировать контекстную рекламу в соответствии с поведением пользователя в интернете. При этом обычно согласия пользователей на это не спрашивается, а возможности выбора, какие сведения о себе предоставлять, не дается. То есть по умолчанию в Big Data собирается все, что затем будет храниться на серверах данных сайтов.

Из этого вытекает следующая важная проблема, касающаяся обеспечения безопасности хранения и использования данных. Например, безопасна ли та или иная аналитическая платформа, которой потребители в автоматическом режиме передают свои данные? Кроме того, многие представители бизнеса отмечают дефицит высококвалифицированных аналитиков и маркетологов, способных эффективно оперировать большими объемами данных и решать с их помощью конкретные бизнес-задачи.

Несмотря на все сложности с внедрением Big Data, бизнес намерен увеличивать вложения в это направление. По данным исследования Gartner, лидерами инвестирующих в Big Data отраслей являются медиа, ритейл, телеком, банковский сектор и сервисные компании.

Перспективы взаимодействия технологий блокчейн и Big Data

Интеграция с Big Data несет в себе синергетический эффект и открывает бизнесу широкий спектр новых возможностей, в том числе позволяя:

— получать доступ к детализированной информации о потребительских предпочтениях, на основе которых можно выстраивать подробные аналитические профили для конкретных поставщиков, товаров и компонентов продукта;
— интегрировать подробные данные о транзакциях и статистике потребления определенных групп товаров различными категориями пользователей;
— получать подробные аналитические данные о цепях поставок и потребления, контролировать потери продукции при транспортировке (например, потери веса вследствие усыхания и испарения некоторых видов товаров);
— противодействовать фальсификациям продукции, повысить эффективность борьбы с отмыванием денег и мошенничеством и т. д.

Доступ к подробным данным об использовании и потреблении товаров в значительной мере раскроет потенциал технологии Big Data для оптимизации ключевых бизнес-процессов, снизит регуляторные риски, раскроет новые возможности монетизации и создания продукции, которая будет максимально соответствовать актуальным потребительским предпочтениям.

Как известно, к технологии блокчейн уже проявляют значительный интерес представители крупнейших финансовых институтов, включая , и т. д. По мнению Оливера Буссманна, IT-менеджера швейцарского финансового холдинга UBS, технология блокчейн способна «сократить время обработки транзакций от нескольких дней до нескольких минут».

Потенциал анализа из блокчейна при помощи технологии Big Data огромен. Технология распределенного реестра обеспечивает целостность информации, а также надежное и прозрачное хранение всей истории транзакций. Big Data, в свою очередь, предоставляет новые инструменты для эффективного анализа, прогнозирования, экономического моделирования и, соответственно, открывает новые возможности для принятия более взвешенных управленческих решений.

Тандем блокчейна и Big Data можно успешно использовать в здравоохранении. Как известно, несовершенные и неполные данные о здоровье пациента в разы увеличивают риск постановки неверного диагноза и неправильно назначенного лечения. Критически важные данные о здоровье клиентов медучреждений должны быть максимально защищенными, обладать свойствами неизменности, быть проверяемыми и не должны быть подвержены каким-либо манипуляциям.

Информация в блокчейне соответствует всем перечисленным требованиям и может служить в роли качественных и надежных исходных данных для глубокого анализа при помощи новых технологий Big Data. Помимо этого, при помощи блокчейна медицинские учреждения смогли бы обмениваться достоверными данными со страховыми компаниями, органами правосудия, работодателями, научными учреждениями и другими организациями, нуждающимися в медицинской информации.

Big Data и информационная безопасность

В широком понимании, информационная безопасность представляет собой защищенность информации и поддерживающей инфраструктуры от случайных или преднамеренных негативных воздействий естественного или искусственного характера.

В области информационной безопасности Big Data сталкивается со следующими вызовами:

— проблемы защиты данных и обеспечения их целостности;
— риск постороннего вмешательства и утечки конфиденциальной информации;
— ненадлежащее хранение конфиденциальной информации;
— риск потери информации, например, вследствие чьих-либо злонамеренных действий;
— риск нецелевого использования персональных данных третьими лицами и т. д.

Одна из главных проблем больших данных, которую призван решить блокчейн, лежит в сфере информационной безопасности. Обеспечивая соблюдение всех основных ее принципов, технология распределенного реестра может гарантировать целостность и достоверность данных, а благодаря отсутствию единой точки отказа, блокчейн делает стабильной работу информационных систем. Технология распределенного реестра может помочь решить проблему доверия к данным, а также предоставить возможность универсального обмена ими.

Информация – ценный актив, а это значит, что на первом плане должен стоять вопрос обеспечения основных аспектов информационной безопасности. Для того, чтобы выстоять в конкурентной борьбе, компании должны идти в ногу со временем, а это значит, что им нельзя игнорировать те потенциальные возможности и преимущества, которые заключают в себе технология блокчейн и инструменты Big Data.

Мы регулярно натыкаемся на модные слова и определения, смысл которых нам интуитивно вроде бы понятен, но четкой картины того, что это все-таки за штука и как она работает, у нас нет.

Одним из таких понятий является Big Data, в русском языке иногда можно встретить буквальный перевод - «большие данные», но чаще люди говорят и пишут как есть: Big Data. Все наверняка слышали или, по крайней мере, встречали это словосочетание в интернете, и оно вроде бы несложное, но что конкретно имеется в виду, далеким от тонкостей диджитал-мира офисным гуманитариям понятно не всегда.

Отличной попыткой восполнить этот пробел в мозгах самого широкого круга пользователей является статья одного из наших любимых авторов Бернарда Марра , которая так и называется «Что такое Big Data? Суперпростое объяснение для каждого» . Без заумного жаргона с единственной целью объяснить ключевые идеи этого феномена для каждого вне зависимости от образования и сферы деятельности.

На самом деле последние несколько лет мы уже живем в мире, насквозь пронизанном Big Data, но продолжаем путаться в понимании того, что же это все-таки такое. Отчасти это происходит и потому, что сама по себе концепция Big Data постоянно трансформируется и переосмысляется, потому что мир высоких технологий и обработки больших массивов информации очень быстро меняется, включая в себя все новые и новые опции. А объем этой информации постоянно растет.

Итак, что значит Big Data - 2017?

Все началось со взрывным ростом количества данных, которые мы создаем с начала цифровой эры. Это стало возможным в основном благодаря росту числа и мощности компьютеров, расширению интернета и развитию технологий, способных захватывать информацию из реального, физического мира, в котором все мы живем, и конвертировать ее в цифровые данные.

В 2017-м мы производим данные, когда заходим в интернет, когда пользуемся нашими укомплектованными GPS-смартфонами, когда общаемся с друзьями в соцсетях, скачиваем мобильные приложения или музыку, когда совершаем покупки.

Можно сказать, что мы оставляем за собой множество цифровых следов, что бы мы ни делали, если наши действия включают в себя какие-либо цифровые транзакции. То есть уже почти всегда и везде.

Помимо этого, с огромной скоростью растет количество данных, сгенерированных самими машинами. Данные создаются и передаются, когда наши умные девайсы коммуницируют друг с другом. Производственные предприятия по всему миру оснащаются оборудованием, которое денно и нощно собирает и передает данные.

В ближайшем будущем наши улицы будут заполнены самоуправляемыми автомобилями, самостоятельно прокладывающими маршруты на основе четырехмерных карт, данные которых генерируются в режиме реального времени.

Что может Big Data?

Бесконечно растущий поток сенсорной информации, фотографий, текстовых сообщений, аудио- и видеоданных лежит в основе Big Data, которые мы можем использовать так, как невозможно было даже представить себе несколько лет назад.

Прямо сейчас основанные на Big Data проекты помогают:

- Лечить болезни и предотвращать рак . Основанная на использовании Big Data медицина анализирует огромное количество медицинских записей и снимков, что делает возможным очень раннюю диагностику и способствует созданию новых методов лечения.

- Бороться с голодом . Сельское хозяйство переживает настоящую революцию Big Data, которая позволяет использовать ресурсы так, чтобы максимально увеличить урожайность при минимальном вмешательстве в экосистему и оптимизировать использование машин и оборудования.

- Открывать далекие планеты . НАСА, к примеру, анализирует огромное количество данных и выстраивает с их помощью модели будущих миссий в далекие миры.

- Предсказывать чрезвычайные ситуации различной природы и минимизировать возможный ущерб. Данные многочисленных сенсоров могут предсказать, где и когда произойдет следующее землетрясение или возможное поведение людей в чрезвычайной ситуации, что повышает шансы на выживание.

- Предотвращать преступления за счет использования технологий, которые позволяют более эффективно распределять ресурсы и направлять их туда, где они наиболее необходимы.

И самое близкое большинству из нас: Big Data делает жизнь обычного человека проще и удобнее - это и онлайн-шопинг, и планирование поездок, и навигация в условиях мегаполиса.

Выбрать лучшее время для покупки авиабилетов и решить, какой фильм или сериал посмотреть, стало гораздо легче именно благодаря работе Big Data.

Как это работает?

Big Data работает на принципе: чем больше вы знаете о чем-либо, тем точнее вы можете предсказать, что случится в будущем. Сравнение отдельных данных и отношений между ними (речь идет об огромном количестве данных и невероятно большом количестве возможных связей между ними) позволяет обнаружить ранее скрытые закономерности. Это дает возможность заглянуть внутрь проблемы и в конечном итоге понимание того, как мы можем управлять тем или иным процессом.

Чаще всего процесс обработки больших объемов информации включает в себя построение моделей, базирующихся на собранных данных, и запуск симуляций, в процессе которого постоянно меняются ключевые настройки, при этом каждый раз система мониторит, как «смена настроек» влияет на возможный результат.

Этот процесс полностью автоматизирован, ведь речь идет об анализе миллионов симуляций, перебора всех возможных вариантов вплоть до того момента, пока паттерн (нужная схема) не будет найден или пока не случится «просветление», что поможет решить задачу, ради которой все и затевалось.

В отличие от привычного нам мира предметов и вычислений, данные принимаются в неструктурированной форме, то есть их сложно засунуть в привычные нам, людям, таблицы с ячейками и столбиками. Огромное количество данных передается как изображения или видео: от спутниковых снимков до селфи, которые вы постите в инстаграм или фейсбук, - так же, как записи в email и мессенджер или телефонные звонки.

Чтобы придать всему этому бесконечному и разношерстному потоку данных практический смысл, Big Data часто использует самые передовые технологии анализа, которые включают в себя искусственный интеллект и машинное обучение (это когда программа в компьютере обучает другие программы).

Компьютеры сами обучаются определять, что представляет та или иная информация - например, распознавать изображения, язык, - и они могут делать это намного быстрее, чем люди.

Большой брат?

Пропорционально беспрецедентным возможностям, которые дает нам сегодня Big Data, растет количество опасений и вопросов, связанных с ее использованием.

НЕПРИКОСНОВЕННОСТЬ ЛИЧНЫХ ДАННЫХ. Big Data собирает огромное количество информации о нашей частной жизни. Очень много информации, которую мы предпочли бы сохранить в тайне.

БЕЗОПАСНОСТЬ. Даже если мы решили, что в передаче всех наших персональных данных машине ради какой-то конкретной, выгодной нам цели нет ничего страшного, можем ли мы быть уверены, что наши данные хранятся в безопасном месте?
Кто и как может нам это гарантировать?

ДИСКРИМИНАЦИЯ. Когда все известно, допустимо ли подвергать людей дискриминации на основании того, что о них известно благодаря Big Data? Банки используют кредитную историю, а страховые компании определяют стоимость автостраховки, исходя из того, что они знаю о вас. Как далеко это может зайти?

Можно предположить, что ради минимизации рисков компании, государственные органы и даже частные лица будут использовать то, что они могут узнать о нас, и по каким-то соображениям ограничивать нам доступ к ресурсам и информации.

При всех преимуществах мы должны признать, что все эти опасения также являются неотъемлемой частью Big Data. До последнего времени над ответами ломали голову ученые, но сейчас пришло время, когда волна докатилась до бизнеса, который хочет использовать преимущества Big Data в своих целях. А это может быть чревато в том числе и катастрофическими последствиями.

Волкова Юлия Сергеевна,студентка 4 курса, Финансовый университет при Правительстве Российской Федерации, Калужский филиал, г. Калуга[email protected]

Большие Данные в современном мире

Аннотация.Статья посвящена внедрению технологий Больших Данных в наше современное общество. Исследованы основные характеристики Больших Данных, рассмотрены основные сферы применения, такие как банковская сфера, ритейл, частный и государственный сектор и даже повседневная жизнь. Исследование выявило недостатки использования технологий Больших Данных. Обозначена необходимость развития нормативного регулирования использования Больших Данных.Ключевые слова: Большие Данные, банки, банковская сфера, ритейл, частный сектор, государственный сектор.

По мере увеличения степени встраиваемости средств информационныхтехнологийв различные направления современного общества возрастают и требования к их адаптируемостидлярешенияновых задач, которые предполагают огромные объемы данных. Есть такие объемы информации,которые невозможно обрабатывать традиционными способами, в том числе структурированные данные, медиаданные и случайные объекты. И если с анализом первых существующие сегодня технологии болееменее справляются, то анализ вторых и третьих практически остается непосильным трудом. Исследования показывают, что объемы медиаданных, таких как результаты видеонаблюдения, аэрофотосъемки, цифровая медицинская информация, и случайных объектов, хранящихся в многочисленных архивах и облаках, увеличивается год от года.Огромный объем данных стал глобальным процессом и получил определение Большие Данные. Исследованию Больших Данных посвящены труды как зарубежных, так и российских ученых: James Manyika, Michael Chui, Топорков В.В., Будзко В.И. Существенныйвклад в изучение этой технологии вносят крупные мировые компании, такие как: McKinsey& Company, СNews Analytics, SAP, Oracle, IBM, Microsoft, Teradataи многие другие. Онизанимаются обработкой и анализом данных и на основе Больших данных создаютпрограммноаппаратные комплексы.Согласно отчету McKinsey Institute: «Большие Данные –это набор данных,размер которых выходит за пределы возможностей типовых баз данных программных инструментов для захвата, хранения, управления и анализа данных». В сущности, понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава,постоянно обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности. Консалтинговая компания Forrester дает краткую и достаточно понятную формулировку: «Большие данныеобъединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности».На сегодняшний день сфера Больших Данных характеризуется следующими признаками: Volume–объем, накопленная база данных представляет собой большой объем информации.Velocity–скорость, данный признак указывает как на увеличивающуюся скорость накопления данных (90% информации было собрано за последние 2 года).Variety–многообразие, т.е. возможность одновременной обработки, структурированнойи неструктурированной разноформатной информации. Эксперты из числа маркетологов полюбили добавлять сюда свои «V». Ктото говорит еще о достоверности (veracity), другие добавляют, что технологии больших данных непременно должны приносить пользу бизнесу (value).Ожидается, что к 2020 г. накопленный объем информации на планете будет удваиваться каждые два года. Обилие данных вызывает желание использовать их для анализа и прогнозирования. Колоссальные объемы требуют соответствующих технологий. Сегодня компании должны обрабатывать колоссальное количество данных в объемах, которые трудно представить, это приводит к тому, что традиционные базы данных не могут справиться с такой задачей, и это приводит к необходимости внедрять технологии Больших данных. В таблицепредставлена сравнительная характеристика Больших данных и традиционных баз данных. Основанием для формирования данной таблицы послужили исследования Будзко В. И. и Московской биржи.Таблица 1 Сравнительная характеристика больших данных и традиционных данных

Традиционные базы данныхБольшие ДанныеОбласть применения

Одна или более предметная область примененияСфера применения технологий Больших Данных обширна. От выявления предпочтений клиентов до анализа рисковХарактеристика данныхТолько структурированные данныеОгромные массивы информации со сложной неоднородной и\или неопределенной структуройСпособ хранения данныхЦентрализованныйДецентрализованныйМодель хранения и обработки данныхВертикальная модельГоризонтальная модельКоличество информации для обработкиОт гигабайта (109байт) до терабайт (1012байт)От петабайт (1015байт) до эксабайт (1018 байт)Так, область применения традиционных баз данных охватывает всего одну или несколько, при том такие области должны содержатьтолько структурированные данные. Что касается Больших Данных, то сфера их применения обширна с огромными массивами информации со сложной структурой.Согласно результатам исследования СNews Analytics, представленных на рисунке 1,российский рынок приходит к такому явлению как Большие Данные, что показывает повышение уровня зрелости компаний. Многие фирмы переходят на технологии Больших Данных изза объема их обрабатываемых данных, уже сейчас более 44% генерируют около 100 терабайт, а у 13% эти объемы данныхпревышают 500 терабайт.

Рис.1. Объемы информации, обрабатываемые в компаниях

Такие объемы невозможно обрабатывать традиционными базами данных, поэтому такие компании видят решение перехода на Большие Данные не просто как обработку огромных объемов, но и как повышение конкурентоспособности, увеличения лояльности покупателя к своему продукту и привлечения новых. Наиболее активными заказчиками таких решений являются банки, телеком и ритейл, их процентное соотношение представлено на рисунке 2.Менее заметно количество компаний, которые используют или готовы использовать большие данные в транспортной отрасли и энергетики, промышленности. Первые примеры использования больших данных появились и в госсекторе.

Рис.2. Отраслевая структура использования Больших Данных

Что касается Западного правительства, поразным оценкам, цифровая экономика составляет от3% до21% ВВП стран большой двадцатки. Российский госсектор пока не добился значимых результатов в работе с большими данными. Сегодня в России подобными технологиями интересуются в основном коммерческие предприятия: торговые сети, банки, телекоммуникационные компании.Пооценке Российскойассоциацииэлектронныхкоммуникаций, объем цифровой экономики вРФ составляет всего 1 трлн. руб. -около 1,5% отВВП. Тем не менее, уРФ есть огромный потенциал роста цифровой экономики.Несмотря на малый срок существования сектора Big Data, уже есть оценки эффективного использования этих технологий, основанные на реальных примерах. Банки сегодня в среднем обрабатывают примерно 3,8 петобайт данных, они используют технологии Больших Данных для достижения определенных задач: сбор данных о использовании кредитных карточек;сбор данных о залогах;сбор данных о кредитах;44%16%13%7%20%БанкиТелекомРитейлГоссекторДругиесбор данных о профилях клиента;сбор данных о сбережениях клиента.Банки заявляют, что после того, как они начали пользоваться технологиями Больших Данных, они смогли привлечь новых клиентов, лучше взаимодействовать как с новыми, так и со старыми клиентами и поддерживать их лояльность. В 2015 г. CNews Analyticsпровел опрос среди тридцати крупнейших российских банков по совокупным активам, чтобы узнать, какие технологии больших данных они применяют и с какими целями. По сравнению с опросом 2014 г., число банков топ30, сообщивших о применении технологий больших данных, увеличилось, но это изменение связано скорее с изменением состава топ30. На рисунке 3представлено сравнение опроса 2015 по сравнению с 2014 годом наоснове опроса Кирьяновой А.

Рис. 3. Использование Больших Данных топ30 российскими банками

По оценкам компании IBS, 80% банков, ответивших положительно, внедряют Big Data Appliance–программноаппаратные комплексы для хранения и обработки данных. Эти решения обычно выступают в качестве аналитического или транзакционного хранилища, главное преимущество которого –высокая производительность при работе с большими объемами данных.Тем не менее, практика применения больших данных в российских банках находится на этапе становления. Причина такой медленной адаптации в России проявляется в настороженном отношении ИТспециалистов заказчиков к новым технологиям. Они не испытывают уверенности в том, что технологии больших данных помогут решать задачи в полном объеме.А вот что касается американского рынка, там банки уже накопили 1 экзабайт данных, который можно сравнить с 275 млрд записей mp3. Количество источников, откуда поступает информация,обширно, из них можно выделить классические: посещение клиентов офисов банка;записи телефонных звонков;поведение клиентов в социальных сетях;сведения об операциях по кредитным карточками другое.Офлайнрозница использует большие данные, чтобы анализировать поведение покупателей, проектировать маршруты следования по торговому залу, правильно расставить товары, планировать закупки, и, в конечном итоге, повысить продажи. В онлайнрознице на больших данных строится сам механизм продаж: пользователям предлагают товары на базе предыдущих покупок и их персональных предпочтений, информация о которых собирается, например, в соцсетях. В обоих случаях анализ больших данных помогает сократить издержки, повысить лояльность клиентов и охватить большую аудиторию.По мере развития торгового потенциала компаний, традиционные база данных перестают отвечать растущим требованиям бизнеса, изза чего система не может обеспечить должной детализации управленческого учета. Переходя на большие данные, новые технологии позволяют оптимизировать управление товародвижением, добиться актуальности данных и оперативности их обработки дляоценки последствий управленческих решений, быстро формировать управленческую отчетность. Общий объем накопленных данных составляет более 100 экзабайт, при том только Walmart c помощью больших данных обрабатывает в час 2,5 Петабайт данных. При том, от использования технологий Больших Данных на 60% увеличивается операционная рентабельность, а также по статистке Hadoop после внедрения Больших данных производительность аналитики увеличивается до обработки 120 алгоритмов, а прибыль растет на 710%.Но если взять в рассмотрение Российский ритейл, то тут Большие Данные только начинают набирать обороты, так как разрыв по обработке информации сильно отличается. Так, например, онлайнрозница в 18 раз меньше чем в Китае, и весь оборот данных, который производится в онлайнрознице в 4,5 раза меньше одного магазина Amazon. При этом число онлайнмагазинов в России, которые используют Большие данные меньше 40 тысяч, в то время, как Европе, число таких магазинов больше 550 тысяч. Что характеризует российский рынок ритейла как еще развивающийся и не до конца сформировавшийся. Что касается нашей повседневной жизни, то и здесь используются технологии Больших Данных, о которых мы даже не задумывались.15 млн композиций каждый день, а это примерно 1,5~2 петабайта, обрабатывает shazam, музыкальный сервис, по всему миру, и на основе этого потом музыкальные продюсеры прогнозируют популярность артиста. Большие данные так же используются для обработки информации по кредитным картам, таким как mastercard и visa. Таким образом, 65 млрд транзакций за год с помощью 1,9 млрд карт в 32 млн торговых фирм обрабатывает mastercard для прогнозирования торговых трендов. Ежедневно, людипо всему миру пишут в социальных сетях,таких как twitter и facebook, на 19 терабайт данных. Они загружают и обрабатывают фотографии, пишут, пересылают сообщения и так далее. Инфраструктура также пользуется технологиями Больших Данных, от троллейбусов досамолетов и ракет. Так, в лондонском метро каждый день турникеты фиксируют около 20 млн проходов, в результате анализа, проведенного на базе технологий Больших данных, определено 10 всевозможных эпицентров, что так же учитывается при дальнейшем развитии метро. Несомненно, разнообразие и объем данных, возникающих в результате всевозможных взаимодействий, является мощной базой для бизнеса по построению и уточнению прогнозов, выявлению закономерностей, оценки эффективности и т.д. Однако у всего есть своинедостатки, которые также необходимо грамотно учитывать.Несмотря на явные и потенциальные преимущества использования Больших Данных, их использование имеет и свои недостатки, которые в первую очередь связаны с большими объемами информации, разными методами доступа к ней и с зачастую недостаточным ресурсным обеспечением функции информационной безопасности в организациях. Проблемы, которые связаны с использованием технологий Больших Данных представлены на рисунке 4.

Рис. 4. Проблемы использования Больших Данных

Все эти проблемы приводят к тому, что многие компании с опаской вводят технологии больших данных, так как при работе с третьими лицами у них самих возникает проблема раскрытия инсайда, который компания не могла бы раскрыть, используя толькособственные ресурсы.По моему мнению,самым главным шагом на пути полного внедрения технологий на базе больших данных должно быть именно законодательный аспект. Сейчас уже существуют законы, ограничивающие сбор, использование, хранение определенных типов личных данных, но они не ограничивают полностью большие данные, поэтому для них должны существовать специальные законодательные нормы. Для того чтобы соответствовать быстро меняющимся и новым законам, компании должны выполнять начальную инвентаризацию соответствующих нормативных правовых актов и на регулярной основе обновлять данный список.Тем не менее, несмотря на все выше перечисленные недостатки, как показывает опыт западных представителей, технологии Больших Данных помогают успешно решать, как современные бизнесзадачи и повышение конкурентоспособности, так и задачи, связанные непосредственно с жизнью людей. Российские компании уже сейчас находятся на пути внедрения технологий Больших Данных как в производственную сферу, так и в общественную, так как количество информации с каждым годом увеличивает практически в двое. Со временем, множество сфер нашей жизни подвергнется изменению под влиянием Больших Данных.

Ссылки на источники1.БудзкоВ. И. Системы высокой доступности и Большие Данные // Большие данные в национальной экономике 2013. С. 1619.2.Короткова Т. «EMC Data Lake 2.0 -средство перехода к аналитике больших данных и цифровой экономике» http://bigdata.cnews.ru/news/line/20151203_emc_data_lake_20_pomozhet_perejti_k_analitike.3.Кирьянова А. «Большие данные не стали мэйнстримом в российских банках» http://www.cnews.ru/news/top/bolshie_dannye_ne_stali_mejnstrimom.4.CNews«Инфографика: Большие данные пришли в Россию» http://bigdata.cnews.ru/articles/infografika_bolshie_dannye_prishli_v_rossiyu.5.CNews«Инфографика: Как розница использует большие данные» http://bigdata.cnews.ru/articles/infografika_kak_roznitsa_ispolzuet в мире отсутствуют специальные законодательные нормы в отношении Big Data данные должны быть замаскированы в целях сохранности исходных источников данных компании должны быть уверены в том, что все требования безопасности в отношении данных отслеживаются и поддерживаются внедрение Big Dataрешений может привести к созданию или обнаружению ранее конфиденциальной информацииУправление данными Поддержание требований к безопасности данных Законадательные нормыРеидентификация риска6.CNews«Инфографика: Технологии BigData» http://bigdata.cnews.ru/articles/big_data_v_zhizni_cheloveka.7.CNews«Инфографика: Что могут большие данные в банках» http://bigdata.cnews.ru/articles/infografika_chto_mogut_bolshie_dannye.8.Московская биржа «АналитическийобзоррынкаBigData» http://habrahabr.ru/company/moex/blog/256747/9.Большие данные (BigData). http://www.tadviser.ru/index.php/Статья:Большие_данные_(Big_Data).10.BigData–электричество XXIвека http://bit.samag.ru/archive/article/1463.11.McKinsey Global institute «Bigdata: The next frontier for innovation, competitionand productivity» (June 2011).

Термин «Биг-Дата», возможно, сегодня уже узнаваем, но вокруг него все еще довольно много путаницы относительно того, что же он означает на самом деле. По правде говоря, концепция постоянно развивается и пересматривается, поскольку она остается движущей силой многих продолжающихся волн цифрового преобразования, включая искусственный интеллект, науку о данных и Интернет вещей. Но что же представляет собой технология Big-Data и как она меняет наш мир? Давайте попробуем разобраться объяснить суть технологии Биг-Даты и что она означает простыми словами.

Удивительный рост Биг-Даты

Все началось со «взрыва» в объеме данных, которые мы создали с самого начала цифровой эпохи. Это во многом связано с развитием компьютеров, Интернета и технологий, способных «выхватывать» данные из окружающего нас мира. Данные сами по себе не являются новым изобретением. Еще до эпохи компьютеров и баз данных мы использовали бумажные записи транзакций, клиентские записи и архивные файлы, которые и являются данными. Компьютеры, в особенности электронные таблицы и базы данных, позволили нам легко и просто хранить и упорядочивать данные в больших масштабах. Внезапно информация стала доступной при помощи одного щелчка мыши.

Тем не менее, мы прошли долгий путь от первоначальных таблиц и баз данных. Сегодня через каждые два дня мы создаем столько данных, сколько мы получили с самого начала вплоть до 2000 года. Правильно, через каждые два дня. И объем данных, которые мы создаем, продолжает стремительно расти; к 2020 году объем доступной цифровой информации возрастет примерно с 5 зеттабайтов до 20 зеттабайтов.

В настоящее время почти каждое действие, которое мы предпринимаем, оставляет свой след. Мы генерируем данные всякий раз, когда выходим в Интернет, когда переносим наши смартфоны, оборудованные поисковым модулем, когда разговариваем с нашими знакомыми через социальные сети или чаты и т.д. К тому же, количество данных, сгенерированных машинным способом, также быстро растет. Данные генерируются и распространяются, когда наши «умные» домашние устройства обмениваются данными друг с другом или со своими домашними серверами. Промышленное оборудование на заводах и фабриках все чаще оснащается датчиками, которые аккумулируют и передают данные.

Термин «Big-Data» относится к сбору всех этих данных и нашей способности использовать их в своих интересах в широком спектре областей, включая бизнес.

Как работает технология Big-Data?

Биг Дата работает по принципу: чем больше вы знаете о том или ином предмете или явлении, тем более достоверно вы сможете достичь нового понимания и предсказать, что произойдет в будущем. В ходе сравнения большего количества точек данных возникают взаимосвязи, которые ранее были скрыты, и эти взаимосвязи позволяют нам учиться и принимать более взвешенные решения. Чаще всего это делается с помощью процесса, который включает в себя построение моделей на основе данных, которые мы можем собрать, и дальнейший запуск имитации, в ходе которой каждый раз настраиваются значения точек данных и отслеживается то, как они влияют на наши результаты. Этот процесс автоматизирован — современные технологии аналитики будут запускать миллионы этих симуляций, настраивая все возможные переменные до тех пор, пока не найдут модель — или идею — которые помогут решить проблему, над которой они работают.

Бил Гейтс висит над бумажным содержимым одного компакт диска

До недавнего времени данные были ограничены электронными таблицами или базами данных — и все было очень упорядочено и аккуратно. Все то, что нельзя было легко организовать в строки и столбцы, расценивалось как слишком сложное для работы и игнорировалось. Однако прогресс в области хранения и аналитики означает, что мы можем фиксировать, хранить и обрабатывать большое количество данных различного типа. В результате «данные» на сегодняшний день могут означать что угодно, начиная базами данных, и заканчивая фотографиями, видео, звукозаписями, письменными текстами и данными датчиков.

Чтобы понять все эти беспорядочные данные, проекты, имеющие в основе Биг Дату, зачастую используют ультрасовременную аналитику с привлечением искусственного интеллекта и компьютерного обучения. Обучая вычислительные машины определять, что же представляют собой конкретные данные — например, посредством распознавания образов или обработки естественного языка – мы можем научить их определять модели гораздо быстрее и достовернее, чем мы сами.

Как используется Биг-Дата?

Этот постоянно увеличивающийся поток информации о данных датчиков, текстовых, голосовых, фото- и видеоданных означает, что теперь мы можем использовать данные теми способами, которые невозможно было представить еще несколько лет назад. Это привносит революционные изменения в мир бизнеса едва ли не в каждой отрасли. Сегодня компании могут с невероятной точностью предсказать, какие конкретные категории клиентов захотят сделать приобретение, и когда. Биг Дата также помогает компаниям выполнять свою деятельность намного эффективнее.

Даже вне сферы бизнеса проекты, связанные с Big-Data, уже помогают изменить наш мир различными путями:

  • Улучшая здравоохранение — медицина, управляемая данными, способна анализировать огромное количество медицинской информации и изображений для моделей, которые могут помочь обнаружить заболевание на ранней стадии и разработать новые лекарства.
  • Прогнозируя и реагируя на природные и техногенные катастрофы. Данные датчиков можно проанализировать, чтобы предсказать, где могут произойти землетрясения, а модели поведения человека дают подсказки, которые помогают организациям оказывать помощь выжившим. Технология Биг Даты также используется для отслеживания и защиты потока беженцев из зон военных действий по всему миру.
  • Предотвращая преступность. Полицейские силы все чаще используют стратегии, основанные на данных, которые включают их собственную разведывательную информацию и информацию из открытого доступа для более эффективного использования ресурсов и принятия сдерживающих мер там, где это необходимо.

Лучшие книги о технологии Big-Data

  • Все лгут. Поисковики, Big Data и Интернет знают о вас всё .
  • BIG DATA. Вся технология в одной книге .
  • Индустрия счастья. Как Big Data и новые технологии помогают добавить эмоцию в товары и услуги .
  • Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики .

Проблемы с Big-Data

Биг Дата дает нам беспрецедентные идеи и возможности, но также поднимает проблемы и вопросы, которые необходимо решить:

  • Конфиденциальность данных – Big-Data, которую мы сегодня генерируем, содержит много информации о нашей личной жизни, на конфиденциальность которой мы имеем полное право. Все чаще и чаще нас просят найти баланс между количеством персональных данных, которые мы раскрываем, и удобством, которое предлагают приложения и услуги, основанные на использовании Биг Даты.
  • Защита данных — даже если мы решаем, что нас устраивает то, что у кого-то есть наши данные для определенной цели, можем ли мы доверять ему сохранность и безопасность наших данных?
  • Дискриминация данных — когда вся информация будет известна, станет ли приемлемой дискриминация людей на основе данных из их личной жизни? Мы уже используем оценки кредитоспособности, чтобы решить, кто может брать деньги, и страхование тоже в значительной степени зависит от данных. Нам стоит ожидать, что нас будут анализировать и оценивать более подробно, однако следует позаботиться о том, чтобы это не усложняло жизнь тех людей, которые располагают меньшими ресурсами и ограниченным доступом к информации.

Выполнение этих задач является важной составляющей Биг Даты, и их необходимо решать организациям, которые хотят использовать такие данные. Неспособность осуществить это может сделать бизнес уязвимым, причем не только с точки зрения его репутации, но также с юридической и финансовой стороны.

Глядя в будущее

Данные меняют наш мир и нашу жизнь небывалыми темпами. Если Big-Data способна на все это сегодня — просто представьте, на что она будет способна завтра. Объем доступных нам данных только увеличится, а технология аналитики станет еще более продвинутой.

Для бизнеса способность применять Биг Дату будет становиться все более решающей в ​​ближайшие годы. Только те компании, которые рассматривают данные как стратегический актив, выживут и будут процветать. Те же, кто игнорирует эту революцию, рискуют остаться позади.



Только ленивый не говорит о Big data, но что это такое и как это работает - понимает вряд ли. Начнём с самого простого - терминология. Говоря по-русски, Big data - это различные инструменты, подходы и методы обработки как структурированных, так и неструктурированных данных для того, чтобы их использовать для конкретных задач и целей.

Неструктурированные данные - это информация, которая не имеет заранее определённой структуры или не организована в определённом порядке.

Термин «большие данные» ввёл редактор журнала Nature Клиффорд Линч ещё в 2008 году в спецвыпуске, посвящённом взрывному росту мировых объёмов информации. Хотя, конечно, сами большие данные существовали и ранее. По словам специалистов, к категории Big data относится большинство потоков данных свыше 100 Гб в день.

Читайте также:

Сегодня под этим простым термином скрывается всего два слова - хранение и обработка данных.

Big data - простыми словами

В современном мире Big data - социально-экономический феномен, который связан с тем, что появились новые технологические возможности для анализа огромного количества данных.

Читайте также:

Для простоты понимания представьте супермаркет, в котором все товары лежат не в привычном вам порядке. Хлеб рядом с фруктами, томатная паста около замороженной пиццы, жидкость для розжига напротив стеллажа с тампонами, на котором помимо прочих стоит авокадо, тофу или грибы шиитаке. Big data расставляют всё по своим местам и помогают вам найти ореховое молоко, узнать стоимость и срок годности, а еще - кто, кроме вас, покупает такое молоко и чем оно лучше молока коровьего.

Кеннет Кукьер: Большие данные - лучшие данные

Технология Big data

Огромные объёмы данных обрабатываются для того, чтобы человек мог получить конкретные и нужные ему результаты для их дальнейшего эффективного применения.

Читайте также:

Фактически, Big data - это решение проблем и альтернатива традиционным системам управления данными.

Техники и методы анализа, применимые к Big data по McKinsey:

  • Data Mining;
  • Краудсорсинг;
  • Смешение и интеграция данных;
  • Машинное обучение;
  • Искусственные нейронные сети;
  • Распознавание образов;
  • Прогнозная аналитика;
  • Имитационное моделирование;
  • Пространственный анализ;
  • Статистический анализ;
  • Визуализация аналитических данных.

Горизонтальная масштабируемость, которая обеспечивает обработку данных - базовый принцип обработки больших данных. Данные распределены на вычислительные узлы, а обработка происходит без деградации производительности. McKinsey включил в контекст применимости также реляционные системы управления и Business Intelligence.

Технологии:

  • NoSQL;
  • MapReduce;
  • Hadoop;
  • Аппаратные решения.

Читайте также:

Для больших данных выделяют традиционные определяющие характеристики, выработанные Meta Group ещё в 2001 году, которые называются «Три V »:

  1. Volume - величина физического объёма.
  2. Velocity - скорость прироста и необходимости быстрой обработки данных для получения результатов.
  3. Variety - возможность одновременно обрабатывать различные типы данных.

Big data: применение и возможности

Объёмы неоднородной и быстро поступающей цифровой информации обработать традиционными инструментами невозможно. Сам анализ данных позволяет увидеть определённые и незаметные закономерности, которые не может увидеть человек. Это позволяет оптимизировать все сферы нашей жизни - от государственного управления до производства и телекоммуникаций.

Например, некоторые компании ещё несколько лет назад защищали своих клиентов от мошенничества, а забота о деньгах клиента - забота о своих собственных деньгах.

Сюзан Этлиджер: Как быть с большими данными?

Решения на основе Big data: «Сбербанк», «Билайн» и другие компании

У «Билайна» есть огромное количество данных об абонентах, которые они используют не только для работы с ними, но и для создания аналитических продуктов, вроде внешнего консалтинга или IPTV-аналитики. «Билайн» сегментировали базу и защитили клиентов от денежных махинаций и вирусов, использовав для хранения HDFS и Apache Spark, а для обработки данных - Rapidminer и Python.

Читайте также:

Или вспомним «Сбербанк» с их старым кейсом под названием АС САФИ. Это система, которая анализирует фотографии для идентификации клиентов банка и предотвращает мошенничество. Система была внедрена ещё в 2014 году, в основе системы - сравнение фотографий из базы, которые попадают туда с веб-камер на стойках благодаря компьютерному зрению. Основа системы - биометрическая платформа. Благодаря этому, случаи мошенничества уменьшились в 10 раз.

Big data в мире

К 2020 году, по прогнозам, человечество сформирует 40-44 зеттабайтов информации. А к 2025 году вырастет в 10 раз, говорится в докладе The Data Age 2025, который был подготовлен аналитиками компании IDC. В докладе отмечается, что большую часть данных генерировать будут сами предприятия, а не обычные потребители.

Аналитики исследования считают, что данные станут жизненно-важным активом, а безопасность - критически важным фундаментом в жизни. Также авторы работы уверены, что технология изменит экономический ландшафт, а обычный пользователь будет коммуницировать с подключёнными устройствами около 4800 раз в день.

Рынок Big data в России

В 2017 году мировой доход на рынке big data должен достигнуть $150,8 млрд, что на 12,4% больше, чем в прошлом году. В мировом масштабе российский рынок услуг и технологий big data ещё очень мал. В 2014 году американская компания IDC оценивала его в $340 млн. В России технологию используют в банковской сфере, энергетике, логистике, государственном секторе, телекоме и промышленности.

Читайте также:

Что касается рынка данных, он в России только зарождается. Внутри экосистемы RTB поставщиками данных выступают владельцы программатик-платформ управления данными (DMP) и бирж данных (data exchange). Телеком-операторы в пилотном режиме делятся с банками потребительской информацией о потенциальных заёмщиках.

Обычно большие данные поступают из трёх источников:

  • Интернет (соцсети, форумы, блоги, СМИ и другие сайты);
  • Корпоративные архивы документов;
  • Показания датчиков, приборов и других устройств.

Big data в банках

Помимо системы, описанной выше, в стратегии «Сбербанка» на 2014-2018 гг. говорится о важности анализа супермассивов данных для качественного обслуживания клиентов, управления рисками и оптимизации затрат. Сейчас банк использует Big data для управления рисками, борьбы с мошенничеством, сегментации и оценки кредитоспособности клиентов, управления персоналом, прогнозирования очередей в отделениях, расчёта бонусов для сотрудников и других задач.

«ВТБ24» пользуется большими данными для сегментации и управления оттоком клиентов, формирования финансовой отчётности, анализа отзывов в соцсетях и на форумах. Для этого он применяет решения Teradata, SAS Visual Analytics и SAS Marketing Optimizer.



Есть вопросы?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: