ADD 2010: Отчёт Русецкого Георгия/Apache Hadoop

Материал из CustisWiki
Перейти к: навигация, поиск
Apache Hadoop (Владимир Климонтович на ADD-2010)

Доклад про свободный фреймворк Apache Hadoop поддерживающим выполнение распределённых приложений, работающих на больших кластерах, построенных на обычном оборудовании. Докладчик рассказал про алгоритм MapReduce, используемый во фреймворке и распределённую файловую систему HDFS. Немного затронул тему перевода SQL-выражений в термины map-reduce. Были приведены примеры использования фреймворка в проектах Yahoo и Last.fm. Далее следовал рассказ об Apache Hive — инфраструктуре хранения и обработки данных, построенной поверх Hadoop. Возможные области применения: research, data mining, reporting. Достоинства:

  • Хорошая гладкая масштабируемость
  • Нулевая стоимость софта
  • Доступность выполнения задач по-запросу на мощностях Amazon Cloud Service.

Недостатки:

  • Высокая стоимость поддержки и администрирования
  • Необходим штат высококвалифицированных java-разработчиков
  • Нестабильность
  • Низкая скорость / не realtime

В завершении доклада было рассказано о реализации Bigtable БД поверх Hadoop — Hbase.

В целом было интересно.