Отчет о конференции ADD-2010 - Владислав Иофе/Apache Hadoop
Материал из CustisWiki
Было рассказано о NoSQL-платформе Apache Hadoop. Платформа позволяет отложенно распределенно обрабатывать большие объемы данных. Обработка состоит из двух шагов: Map — представление исходных данных (любых, хоть из текстовых файлов) в виде ключ-значение, и Reduce — обработка, например, агрегирование. Шаги описываются на Java.
Были приведены примеры использования.
Хотя система нестабильна (да, много багов!) и дорога в обслуживании (найди дурака за этим следить на fulltime), даже крупные компании не гнушаются ее использовать (Google, Yahoo, Facebook). Мало того, платформа обросла сопутствующими технологиями. Например, трансляция SQL-запросов в MapReduce-задачи.
Оценка: :)