ADD 2010: Отчёт Русецкого Георгия/Apache Hadoop
Материал из CustisWiki
Доклад про свободный фреймворк Apache Hadoop поддерживающим выполнение распределённых приложений, работающих на больших кластерах, построенных на обычном оборудовании. Докладчик рассказал про алгоритм MapReduce, используемый во фреймворке и распределённую файловую систему HDFS. Немного затронул тему перевода SQL-выражений в термины map-reduce. Были приведены примеры использования фреймворка в проектах Yahoo и Last.fm. Далее следовал рассказ об Apache Hive — инфраструктуре хранения и обработки данных, построенной поверх Hadoop. Возможные области применения: research, data mining, reporting. Достоинства:
- Хорошая гладкая масштабируемость
- Нулевая стоимость софта
- Доступность выполнения задач по-запросу на мощностях Amazon Cloud Service.
Недостатки:
- Высокая стоимость поддержки и администрирования
- Необходим штат высококвалифицированных java-разработчиков
- Нестабильность
- Низкая скорость / не realtime
В завершении доклада было рассказано о реализации Bigtable БД поверх Hadoop — Hbase.
В целом было интересно.