Big Data

51 673

Big Data — это бесконечные объемы оцифрованной информации. В 2008 году редактор научного журнала Nature Клиффорд Линч рассказал о потоке «больших данных». Теперь этим термином описывают все, что копится и обрабатывается в сетях и ПК.

Что такое Big Data

Источники Больших данных — каналы, по которым мы получаем текстовые материалы, изображения, видео, аудио, графики:

  • интернет;
  • считывающие устройства, датчики, трекеры;
  • соцсети, СМИ;
  • данные со спутника и измерительных приборов;
  • облачные хранилища;
  • научные открытия, медицинские исследования;
  • статистика компаний, городов, государств.

Те данные, которые уже обработала нейросеть или аналитик, называют структурированными. Информационные ресурсы непрерывно растут, поэтому большая часть Big Data всегда не структурирована.

Data Science или наука о данных — это математический и статистический анализ. Цель — обработать массивы неструктурированной информации и найти ценное для конкретных задач.

Схема источников Big Data и их обработки
Источники и обработка Big Data

Характеристики Больших данных

К основным признакам информации VVV — volume/объем, velocity/скорость, variety/разнообразие — добавили еще три V: veracity/достоверность, variability/изменчивость, value/ценность. Сейчас актуальна еще одна характеристика — безопасность.

  • Объем. Материалы занимают терабайты и петабайты памяти. К 2025 году Big Data увеличится до 175 зеттабайт.
  • Скорость создания. Данные быстро генерируются и постоянно обновляются в режиме реального времени.
  • Разнообразие. Любые цифровые форматы (анимация, фильмы, транзакции, аудиофайлы) относятся к Big Data.
  • Достоверность. Информация для анализа должна быть из надежных источников.
  • Изменчивость. Большинство данных поступают не последовательно, со спадами и всплесками.
  • Ценность. Данные делят на важные (финансовая аналитика, медицинские показатели) и второстепенные (фото из соцсетей).
  • Безопасность. Файлы должны быть защищены от взлома. Конфиденциальность данных волнует почти половину потребителей.

Как работает технология Big Data

Google разработал MapReduce — самую известную модель вычислений для Больших данных. Принцип работы:

  1. Массив информации проходит через программные коды MapReduce.
  2. Программа разделяет данные на форматы.
  3. Параллельно обрабатывается каждая часть массива.
  4. В финале все результаты объединяются на отдельном узле.

Искусственные нейросети пропускают через себя нужные материалы по этому же принципу. Они получают и обрабатывают новую информацию, то есть постоянно обучаются.

Как используют Big Data

Маркетинг. Большие данные в торговле помогают изучать предпочтения клиентов. Amazon проводит полную аналитику поведения покупателей, чтобы рекомендовать подходящие товары.

Найм сотрудников. HR-аналитика помогает вычислить текучесть кадров, загруженность персонала, каналы привлечения.

Банки анализируют поведение клиентов и предлагают выгодные кредитные условия, а также обеспечивают безопасность платежей.

Медицина. С помощью технологии собирают данные о привычках пациентов, анализируют МРТ и КТ снимки.

Госструктуры. Большие данные помогают следить за населением, выявлять преступников и мошенников.

Транспорт и логистика. Big Data помогают системам навигации строить маршруты в объезд пробкам.

Медиа. Большие данные — это реакции пользователей на контент: лайки, репосты, комментарии, просмотры. Платформа Netflix учитывает продолжительность фильмов, жанр и паузы для подбора рекомендаций.

Сферы применения Big Data: маркетинг, банки, медицина, транспорт
Применение Big Data в разных отраслях

Методики анализа и обработки Больших данных

Машинное обучение и нейронные сети. Искусственный интеллект можно запрограммировать на распознавание лиц, математические расчеты, прогнозирование.

Схема машинного обучения и обработки больших данных
Машинное обучение в Big Data

Прогнозная аналитика. Использует шаблоны, построенные на предыдущем опыте. Позволяет предсказать цену доллара, нефти или платежеспособность клиента.

Имитационное моделирование. Сымитировать изменения в прошлых отчетах для оценки рисков.

Статистический анализ. Чем больше информации для статистики, тем выше достоверность.

Data Mining построена на классификации, кластеризации, ассоциации, регрессионном анализе, анализе отклонений.

Визуализация аналитических данных — финальный этап. Результаты получают в виде 3D-модели, графика, диаграммы.

Кто работает с Большими данными

  • Дата-сайентист — находит закономерности, строит модели и гипотезы, прогнозирует события.
  • Аналитик данных — проводит анализ, описывает результаты и приводит их в понятный вид.
  • Дата-инженер — организует сбор, хранение и первоначальную обработку информации.
Профессии в сфере Big Data: дата-сайентист, аналитик, инженер
Специалисты по работе с Big Data

Проблемы и перспективы Big Data

Big Data помогает:

  • развивать новые технологии;
  • вести медицинскую статистику;
  • прогнозировать будущее компаний и государств;
  • отслеживать экологическую ситуацию;
  • создавать «умные» города.

Возможные проблемы:

  • Не хватает вычислительной мощности — дорогие ресурсы доступны только компаниям-гигантам.
  • Вопросы приватности — пользователи против сбора персональной информации.
  • Честность работы с данными и безопасность — есть случаи нелегального заработка на данных и взломов серверов.

 

Используемые продукты и сервисы

Что важно запомнить

  • Объем, скорость создания, разнообразные форматы, безопасность, ценность, изменчивость — главные признаки Больших данных.
  • Обработкой Big Data занимаются дата-аналитики, дата-инженеры и дата-сайентисты.
  • Применяют Big Data в медицине, маркетинге, логистике, навигации, госструктурах и медиа.
  • К минусам — необходимость следить за безопасностью данных и приватностью пользователей.
  • Перспективы Больших данных долгосрочные и многообещающие. Нейросети быстро развиваются и пользуются популярностью.

 

Краткий пересказ статьи от нейросети YandexGPT

Разбор статьи от ИИ Perplexity

Актуальное

1 371
Парковка звонка
4 947
SKU
8 419
MicroSIP
8 889
CES (Customer Effort Score)
11 251
Электронная подпись