Big Data — это бесконечные объемы оцифрованной информации. В 2008 году редактор научного журнала Nature Клиффорд Линч рассказал о потоке «больших данных». Теперь этим термином описывают все, что копится и обрабатывается в сетях и ПК.
Что такое Big Data
Источники Больших данных — каналы, по которым мы получаем текстовые материалы, изображения, видео, аудио, графики:
- интернет;
- считывающие устройства, датчики, трекеры;
- соцсети, СМИ;
- данные со спутника и измерительных приборов;
- облачные хранилища;
- научные открытия, медицинские исследования;
- статистика компаний, городов, государств.
Те данные, которые уже обработала нейросеть или аналитик, называют структурированными. Информационные ресурсы непрерывно растут, поэтому большая часть Big Data всегда не структурирована.
Data Science или наука о данных — это математический и статистический анализ. Цель — обработать массивы неструктурированной информации и найти ценное для конкретных задач.
Характеристики Больших данных
К основным признакам информации VVV — volume/объем, velocity/скорость, variety/разнообразие — добавили еще три V: veracity/достоверность, variability/изменчивость, value/ценность. Сейчас актуальна еще одна характеристика — безопасность.
- Объем. Материалы занимают терабайты и петабайты памяти. К 2025 году Big Data увеличится до 175 зеттабайт.
- Скорость создания. Данные быстро генерируются и постоянно обновляются в режиме реального времени.
- Разнообразие. Любые цифровые форматы (анимация, фильмы, транзакции, аудиофайлы) относятся к Big Data.
- Достоверность. Информация для анализа должна быть из надежных источников.
- Изменчивость. Большинство данных поступают не последовательно, со спадами и всплесками.
- Ценность. Данные делят на важные (финансовая аналитика, медицинские показатели) и второстепенные (фото из соцсетей).
- Безопасность. Файлы должны быть защищены от взлома. Конфиденциальность данных волнует почти половину потребителей.
Как работает технология Big Data
Google разработал MapReduce — самую известную модель вычислений для Больших данных. Принцип работы:
- Массив информации проходит через программные коды MapReduce.
- Программа разделяет данные на форматы.
- Параллельно обрабатывается каждая часть массива.
- В финале все результаты объединяются на отдельном узле.
Искусственные нейросети пропускают через себя нужные материалы по этому же принципу. Они получают и обрабатывают новую информацию, то есть постоянно обучаются.
Как используют Big Data
Маркетинг. Большие данные в торговле помогают изучать предпочтения клиентов. Amazon проводит полную аналитику поведения покупателей, чтобы рекомендовать подходящие товары.
Найм сотрудников. HR-аналитика помогает вычислить текучесть кадров, загруженность персонала, каналы привлечения.
Банки анализируют поведение клиентов и предлагают выгодные кредитные условия, а также обеспечивают безопасность платежей.
Медицина. С помощью технологии собирают данные о привычках пациентов, анализируют МРТ и КТ снимки.
Госструктуры. Большие данные помогают следить за населением, выявлять преступников и мошенников.
Транспорт и логистика. Big Data помогают системам навигации строить маршруты в объезд пробкам.
Медиа. Большие данные — это реакции пользователей на контент: лайки, репосты, комментарии, просмотры. Платформа Netflix учитывает продолжительность фильмов, жанр и паузы для подбора рекомендаций.
Методики анализа и обработки Больших данных
Машинное обучение и нейронные сети. Искусственный интеллект можно запрограммировать на распознавание лиц, математические расчеты, прогнозирование.
Прогнозная аналитика. Использует шаблоны, построенные на предыдущем опыте. Позволяет предсказать цену доллара, нефти или платежеспособность клиента.
Имитационное моделирование. Сымитировать изменения в прошлых отчетах для оценки рисков.
Статистический анализ. Чем больше информации для статистики, тем выше достоверность.
Data Mining построена на классификации, кластеризации, ассоциации, регрессионном анализе, анализе отклонений.
Визуализация аналитических данных — финальный этап. Результаты получают в виде 3D-модели, графика, диаграммы.
Кто работает с Большими данными
- Дата-сайентист — находит закономерности, строит модели и гипотезы, прогнозирует события.
- Аналитик данных — проводит анализ, описывает результаты и приводит их в понятный вид.
- Дата-инженер — организует сбор, хранение и первоначальную обработку информации.
Проблемы и перспективы Big Data
Big Data помогает:
- развивать новые технологии;
- вести медицинскую статистику;
- прогнозировать будущее компаний и государств;
- отслеживать экологическую ситуацию;
- создавать «умные» города.
Возможные проблемы:
- Не хватает вычислительной мощности — дорогие ресурсы доступны только компаниям-гигантам.
- Вопросы приватности — пользователи против сбора персональной информации.
- Честность работы с данными и безопасность — есть случаи нелегального заработка на данных и взломов серверов.
Что важно запомнить
- Объем, скорость создания, разнообразные форматы, безопасность, ценность, изменчивость — главные признаки Больших данных.
- Обработкой Big Data занимаются дата-аналитики, дата-инженеры и дата-сайентисты.
- Применяют Big Data в медицине, маркетинге, логистике, навигации, госструктурах и медиа.
- К минусам — необходимость следить за безопасностью данных и приватностью пользователей.
- Перспективы Больших данных долгосрочные и многообещающие. Нейросети быстро развиваются и пользуются популярностью.