Пишите письма → alex@covax.me

Что такое big data на самом деле?

Big data, data mining, data science – эти слова уже лет пять как у всех на слуху, но многие из нас до сих пор смутно представляют себе, что это.

Давайте разберемся с этими терминами, чтобы при случае вы могли вбросить в разговор что-нибудь о преимуществах распределенных вычислений и горизонтальной масштабируемости, а не просто с умным видом кивали головой.

История вопроса

Раньше мы хранили мало данных (все было на бумаге). Потом появились компьютеры и завертелось. Доступный интернет, соцсети и умные дома только усугубили ситуацию.

Данных становилось не просто много, они еще и постоянно прибывали, причем часть из них теряла свою актуальность раньше, чем их успевали обрабатывать.

Простой пример, в 1880 году американцы проводили перепись населения и чтобы полностью обработать результаты потребовалось восемь лет, за которые информация полностью теряла актуальность.

В русской Википедии написано, что термин big data в 2008 году ввел Клиффорд Линч, но это неправда. О big data говорили еще в 90-х, называя так большой и постоянно растущий объем данных, обрабатывать который классическими методами затруднительно.

Так что изначально big data – это буквально большие данные Американцы любят приписывать слово big к разным штукам, сильно влияющим на нашу жизнь. У них, например, есть, big oil, big media и пр.

Позже понимание термина расширилось, и теперь big data – это не только сами большие данные, но и методы их обработки.

Big data сегодня

big data – обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно обрабатываемых горизонтально масштабируемыми программными инструментами.

В этом определении есть две вещи, на которых строятся все сегодняшние разговоры о big data – обработка неструктурированных данных и горзионтальное масштабирование.

Сейчас мы разберем эти понятия на примерах.

Неструктурированные данные

Раньше мы могли автоматически обрабатывать только структурированные данные.

Условно говоря, чтобы выявить корреляцию или просто построить график по каким-то данным, нам нужно было найти эти данные, выписать их в определенные колонки таблицы Экселя, и только потом строить по ним график.

Сегодня у нас есть методы Data mining, которые помогают работать сразу с неструктурированными данными, например, с помощью нейросетей и машинного обучения.

Data mining – это когда мы из кучи данных получаем знания, полезную информацию. В каком-то смысле – это процесс структурированния данных, который раньше необходимо было проводить вручную.

Когда вы слышите что-то про нейросети, умные алгоритмы и интеллектуальный анализ данных – это как раз про методы data mining, которые, кстати, можно применять не только к big data, но и к малым объемам данных. Но если малые объемы данных мы еще можем структурировать и анализировать «вручную», то анализ неструктурированной big data без методов data mining, вероятно, невозможен.

Вертикальное и горизонтальное масштабирование
Если мы обрабатываем информацию на одном сервере, то чтобы увеличить производительность нам нужно воткнуть в этот сервер процессор помощнее.

Это означает, что производительность нашего сервера ограничена самым мощным процессором, который мы сможем в него воткнуть.

Это вертикальное масштабирование и оно не очень подходит для обработки огромных постоянно растущих объемов данных, так имеет «непробиваемый» потолок.

Если же мы будем обрабатывать информацию параллельно на нескольких серверах, а не на одном, то чтобы увеличить производительность такой системы нам достаточно добавить в нее дополнительный сервер.

Таким образом производительность нашей системы будет зависеть не от мощности конкретного сервера, а от количества серверов в системе.

Это горизонтальное масштабирование, благодаря которому мы легко можем нарастить мощность и снизить риск потери данных, так как будем работать сразу на нескольких серверах.

Выводы

Big data – это когда у нас огромная куча разнообразных постоянно прибывающих данных, которые мы параллельно обрабатываем на множестве серверов с помощью специальных программ и методов.

Data mining – это методы обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний.

Data science – это просто раздел информатики, изучающий проблемы анализа и представления данных в цифровой форме.

Такие дела.

P.S.

О том, как Big data уже меняет нашу повседневную жизнь, в каких отраслях применяется и что нас ждет расскажу теперь следующих постах, сюда не влезло.

Пока можете подробнее почитать про 3V (Volume, Velocity и Variety) и глянуть на Youtube выступление Андрея Себранта «Маркетинг в эпоху черных ящиков», там как раз про применение data mining Яндексом.