Владимир Климонтович поделился своим опытом обработки ОЧЕНЬ БОЛЬШИХ объемов данных, и использование для этого NOSQL-подходов, в частности Apache Hadoop.
История вопроса.
Почему проблема обработки большего объема данных становится все более актуальной (пример роста количества данных в разных областях).
Статья от компании Google про парадигму MapReduce. Краткое описание парадигмы.
Краткое описание смежных областей (distributed file system, bigtable-like storage).
История и краткое описание платформы Apache Hadoop.
Примеры использования.
Использование платформы hadoop в трех отдельно взятых областях: в last.fm (построение charts), в online-advertising'e (построение статистики), в Yahoo (построение поискового индекса).
Описание традиционного подхода (SQL базы данных) и подхода с использованием Hadoop для каждой из вышеобозначенных проблем. Достоинства и недостатки SQL/Hadoop подхода
Общий принцип трансляции некоторого подтипа SQL запросов в MapReduce job'ы.
Платформы, построенные поверх Hadoop.
Краткое описание ETL-framework'а Hive and Pig, построенных на базе Hadoop.
Примеры использования (на примере facebook.com и Yahoo); сравнение со стандартным SQL подходом
Проблемы с real-time доступом к данным при использовании Apache Hadoop.
Описания случаев, когда real-time нужен, а когда нет.
Описание решения простых проблем с realtime: кэширование в памяти (memcached), симбиоз со SQL
Симбиоз с bigtable-like БД на примере HBase. Краткое описание HBase.
Hadoop как тренд.
Краткий обзор технических и бизнес проблем, возникающих при использовании Hadoop
Шумиха вокруг Hadoop и NoSQL подхода. Описание случаев, когда SQL оказывается удобным.
Внимание! Данная статья выбрана для репликации во внешнюю базу знаний компании. Пожалуйста, не допускайте в этой статье публикацию конфиденциальной информации, ведения обсуждений в теле статьи, и более ответственно относитесь к качеству самой статьи — проверяйте орфографию, пишите по-русски, избегайте непроверенной вами информации.