РИТ:Высокие нагрузки-2008 (Отчет Стаса Фомина)/Практическое использование Hadoop в системе интернет-статистики

Практическое использование Hadoop в системе интернет-статистики

Презентация

Разумное и модное решение задачи параллельной обработки и агрегации логов посещения сайтов. Используется фреймворк Hadoop (параллельные вычисления в парадигме map/reduce), который для таких задач вроде как идеально предназначен, и в общем-то единственно доступный (опен-сорс), ибо гугловый аналог закрыт, а больше вроде ничего нет.

Кластер относительно небольшой (12 восьмиядерников с 8Gb памяти), но справляется. Два прохода:

Схлопывание текстовых многополевых атрибутов в idы (индексирование).
Обработка (агрегация разного рода) полученных индекс-файлов, получение отчетов.

Ну и всякие там хитрости, вроде все разумно. Опять таки, убьют наверно баннерорезки и этот бизнес.

Персональные инструменты

Просмотры

РИТ:Высокие нагрузки-2008 (Отчет Стаса Фомина)/Практическое использование Hadoop в системе интернет-статистики

Материал из CustisWiki

Практическое использование Hadoop в системе интернет-статистики