- Apache Hadoop (Владимир Климонтович на ADD-2010)
Доклад про свободный фреймворк Apache Hadoop поддерживающим выполнение распределённых приложений, работающих на больших кластерах, построенных на обычном оборудовании.
Докладчик рассказал про алгоритм MapReduce, используемый во фреймворке и распределённую файловую систему HDFS. Немного затронул тему перевода SQL-выражений в термины map-reduce.
Были приведены примеры использования фреймворка в проектах Yahoo и Last.fm.
Далее следовал рассказ об Apache Hive — инфраструктуре хранения и обработки данных, построенной поверх Hadoop. Возможные области применения: research, data mining, reporting. Достоинства:
- Хорошая гладкая масштабируемость
- Нулевая стоимость софта
- Доступность выполнения задач по-запросу на мощностях Amazon Cloud Service.
Недостатки:
- Высокая стоимость поддержки и администрирования
- Необходим штат высококвалифицированных java-разработчиков
- Нестабильность
- Низкая скорость / не realtime
В завершении доклада было рассказано о реализации Bigtable БД поверх Hadoop — Hbase.
В целом было интересно.