Практическое использование Hadoop в системе интернет-статистики
Разумное и модное решение задачи параллельной обработки и агрегации логов посещения сайтов.
Используется фреймворк Hadoop (параллельные вычисления в парадигме map/reduce), который для таких задач вроде как идеально предназначен,
и в общем-то единственно доступный (опен-сорс), ибо гугловый аналог закрыт, а больше вроде ничего нет.
Кластер относительно небольшой (12 восьмиядерников с 8Gb памяти), но справляется.
Два прохода:
- Схлопывание текстовых многополевых атрибутов в idы (индексирование).
- Обработка (агрегация разного рода) полученных индекс-файлов, получение отчетов.
Ну и всякие там хитрости, вроде все разумно.
Опять таки, убьют наверно баннерорезки и этот бизнес.