Персональные инструменты
 

Apache Hadoop (Владимир Климонтович на ADD-2010)

Материал из CustisWiki

Перейти к: навигация, поиск


Аннотация

Владимир Климонтович поделился своим опытом обработки ОЧЕНЬ БОЛЬШИХ объемов данных, и использование для этого NOSQL-подходов, в частности Apache Hadoop.


История вопроса.

  • Почему проблема обработки большего объема данных становится все более актуальной (пример роста количества данных в разных областях).
  • Статья от компании Google про парадигму MapReduce. Краткое описание парадигмы.
  • Краткое описание смежных областей (distributed file system, bigtable-like storage).
  • История и краткое описание платформы Apache Hadoop.

Примеры использования.

  • Использование платформы hadoop в трех отдельно взятых областях: в last.fm (построение charts), в online-advertising'e (построение статистики), в Yahoo (построение поискового индекса).
  • Описание традиционного подхода (SQL базы данных) и подхода с использованием Hadoop для каждой из вышеобозначенных проблем. Достоинства и недостатки SQL/Hadoop подхода
  • Общий принцип трансляции некоторого подтипа SQL запросов в MapReduce job'ы.

Платформы, построенные поверх Hadoop.

  • Краткое описание ETL-frameworkHive and Pig, построенных на базе Hadoop.
  • Примеры использования (на примере facebook.com и Yahoo); сравнение со стандартным SQL подходом

Проблемы с real-time доступом к данным при использовании Apache Hadoop.

  • Описания случаев, когда real-time нужен, а когда нет.
  • Описание решения простых проблем с realtime: кэширование в памяти (memcached), симбиоз со SQL
  • Симбиоз с bigtable-like БД на примере HBase. Краткое описание HBase.

Hadoop как тренд.

  • Краткий обзор технических и бизнес проблем, возникающих при использовании Hadoop
  • Шумиха вокруг Hadoop и NoSQL подхода. Описание случаев, когда SQL оказывается удобным.

Видео

Подкаст

Презентация

Apache Hadoop (Владимир Климонтович на ADD-2010).pdf

Стенограмма

Стенограмму по видеозаписи записал Стас Фомин.

Примечания


Любые правки этой статьи будут перезаписаны при следующем сеансе репликации. Если у вас есть серьезное замечание по тексту статьи, запишите его в раздел «discussion».

Репликация: База Знаний «Заказных Информ Систем» → «Apache Hadoop (Владимир Климонтович на ADD-2010)»