Большие данные, как отмечают исследователи, не предполагают обязательный поиск причин – они рассчитаны на выявление зависимостей, которые могут быть основаны на косвенных взаимосвязях [5].
Как отмечает Майер-Шенбергер В., корреляции позволяют определять важные закономерности явлений, чтобы отслеживать их в настоящем и прогнозировать в будущем. Так, если событие А часто сопровождается событием B, можно отслеживать появление B, чтобы спрогнозировать наступление события А. Данный подход позволяет определить, чего вероятнее всего ожидать от события А, даже в том случае, когда мы не можем измерить или проследить его наступление напрямую. Мы также можем прогнозировать дальнейшие события. Таким образом, корреляции не могут предсказывать будущее, но они могут спрогнозировать его наступление с определенной вероятностью [1].
Эксперты также отмечают значимость вторичного применения больших данных. Речь идет о выведении зависимостей, которые не являлись целью исследования. Так, при применении больших данных для стандартизации качества продукции при помощи корреляционного анализа мы можем, помимо изначально заложенных целей по повышению качества, прогнозировать износ оборудования и предупреждать его поломки [2]. Снижение качества продукта в конкретных партиях по определенным параметрам могло бы указать, в каком конкретно сегменте его производства наблюдаются сбои в работе механизмов или имеются нарушения технологии, вызванные иными причинами [3]. То есть, применение больших данных при анализе продукции позволяет прогнозировать вопросы модернизации производства.
Верно и обратное. Корреляционный анализ больших данных способен указать на ошибочные выводы и неверные причинно-следственные связи, обнаруженные при анализе малых объемов данных и с использованием неверных интуитивных предпосылок. «Корреляции больших данных станут регулярно использоваться для опровержения предполагаемых причинно-следственных связей, убедительно показывая, что часто между следствием и его предполагаемой причиной мало, а то и вовсе нет статистической связи» [1].
Итак, в эпоху малых данных в большинстве случаев корреляционный анализ ограничивался поиском линейных отношений. Отчасти это было связано с недостаточной вычислительной мощностью. При этом усиление закономерности привело бы к определенным изменениям рассматриваемого явления. Но полноценный комплексный анализ с использованием больших данных определяет нелинейные отношения между данными. Наглядно их можно увидеть при нанесении данных на график. Для того чтобы выявить эти данные, нужно воспользоваться техническими инструментами. Нелинейные отношения не только гораздо подробнее линейных, но и более информативны для сотрудников, принимающих решения в компании [4].
Наборы данных могут быть огромными, но информация, содержащаяся в них, обладает значительно меньшей размерностью. Данные накапливаются постоянно, но многие параметры остаются стабильными даже на больших интервалах времени. То есть, данные, записывающиеся каждый ограниченный промежуток времени, являются, по сути, повторениями одной и той же информации. Можно говорить о том, что необходимо проводить «умное» агрегирование данных, используя для моделирования и оптимизации данные, содержащие только необходимую информацию о динамических изменениях, которые влияют на эффективность работы предприятия.