Big data, data mining, data science – эти слова уже лет пять как у всех на слуху, но многие из нас до сих пор смутно представляют себе, что это.
Давайте разберемся с этими терминами, чтобы при случае вы могли вбросить в разговор что-нибудь о преимуществах распределенных вычислений и горизонтальной масштабируемости, а не просто с умным видом кивали головой.
История вопроса
Раньше мы хранили мало данных (все было на бумаге). Потом появились компьютеры и завертелось. Доступный интернет, соцсети и умные дома только усугубили ситуацию.
Данных становилось не просто много, они еще и постоянно прибывали, причем часть из них теряла свою актуальность раньше, чем их успевали обрабатывать.
Простой пример, в 1880 году американцы проводили перепись населения и чтобы полностью обработать результаты потребовалось восемь лет, за которые информация полностью теряла актуальность.
В русской Википедии написано, что термин big data в 2008 году ввел Клиффорд Линч, но это неправда. О big data говорили еще в 90-х, называя так большой и постоянно растущий объем данных, обрабатывать который классическими методами затруднительно.
Так что изначально big data – это буквально большие данные Американцы любят приписывать слово big к разным штукам, сильно влияющим на нашу жизнь. У них, например, есть, big oil, big media и пр.
Позже понимание термина расширилось, и теперь big data – это не только сами большие данные, но и методы их обработки.
Big data сегодня
В этом определении есть две вещи, на которых строятся все сегодняшние разговоры о big data – обработка неструктурированных данных и горзионтальное масштабирование.
Сейчас мы разберем эти понятия на примерах.
Неструктурированные данные
Раньше мы могли автоматически обрабатывать только структурированные данные.
Условно говоря, чтобы выявить корреляцию или просто построить график по каким-то данным, нам нужно было найти эти данные, выписать их в определенные колонки таблицы Экселя, и только потом строить по ним график.
Сегодня у нас есть методы Data mining, которые помогают работать сразу с неструктурированными данными, например, с помощью нейросетей и машинного обучения.
Data mining – это когда мы из кучи данных получаем знания, полезную информацию. В каком-то смысле – это процесс структурированния данных, который раньше необходимо было проводить вручную.
Когда вы слышите что-то про нейросети, умные алгоритмы и интеллектуальный анализ данных – это как раз про методы data mining, которые, кстати, можно применять не только к big data, но и к малым объемам данных. Но если малые объемы данных мы еще можем структурировать и анализировать «вручную», то анализ неструктурированной big data без методов data mining, вероятно, невозможен.
Вертикальное и горизонтальное масштабирование
Если мы обрабатываем информацию на одном сервере, то чтобы увеличить производительность нам нужно воткнуть в этот сервер процессор помощнее.
Это означает, что производительность нашего сервера ограничена самым мощным процессором, который мы сможем в него воткнуть.
Это вертикальное масштабирование и оно не очень подходит для обработки огромных постоянно растущих объемов данных, так имеет «непробиваемый» потолок.
Если же мы будем обрабатывать информацию параллельно на нескольких серверах, а не на одном, то чтобы увеличить производительность такой системы нам достаточно добавить в нее дополнительный сервер.
Таким образом производительность нашей системы будет зависеть не от мощности конкретного сервера, а от количества серверов в системе.
Это горизонтальное масштабирование, благодаря которому мы легко можем нарастить мощность и снизить риск потери данных, так как будем работать сразу на нескольких серверах.
Выводы
Big data – это когда у нас огромная куча разнообразных постоянно прибывающих данных, которые мы параллельно обрабатываем на множестве серверов с помощью специальных программ и методов.
Data mining – это методы обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний.
Data science – это просто раздел информатики, изучающий проблемы анализа и представления данных в цифровой форме.
Такие дела.
P.S.
О том, как Big data уже меняет нашу повседневную жизнь, в каких отраслях применяется и что нас ждет расскажу теперь следующих постах, сюда не влезло.
Пока можете подробнее почитать про 3V (Volume, Velocity и Variety) и глянуть на Youtube выступление Андрея Себранта «Маркетинг в эпоху черных ящиков», там как раз про применение data mining Яндексом.