Отчет о конференции ADD-2010 - Владислав Иофе/Apache Hadoop

Материал из CustisWiki
Перейти к: навигация, поиск
Apache Hadoop (Владимир Климонтович на ADD-2010)

Было рассказано о NoSQL-платформе Apache Hadoop. Платформа позволяет отложенно распределенно обрабатывать большие объемы данных. Обработка состоит из двух шагов: Map — представление исходных данных (любых, хоть из текстовых файлов) в виде ключ-значение, и Reduce — обработка, например, агрегирование. Шаги описываются на Java.

Были приведены примеры использования.

Хотя система нестабильна (да, много багов!) и дорога в обслуживании (найди дурака за этим следить на fulltime), даже крупные компании не гнушаются ее использовать (Google, Yahoo, Facebook). Мало того, платформа обросла сопутствующими технологиями. Например, трансляция SQL-запросов в MapReduce-задачи.

Оценка: :)