Персональные инструменты
 

РИТ:Высокие нагрузки-2008 (Отчет Стаса Фомина)/Практическое использование Hadoop в системе интернет-статистики

Материал из CustisWiki

Перейти к: навигация, поиск

Практическое использование Hadoop в системе интернет-статистики

Разумное и модное решение задачи параллельной обработки и агрегации логов посещения сайтов. Используется фреймворк Hadoop (параллельные вычисления в парадигме map/reduce), который для таких задач вроде как идеально предназначен, и в общем-то единственно доступный (опен-сорс), ибо гугловый аналог закрыт, а больше вроде ничего нет.

Кластер относительно небольшой (12 восьмиядерников с 8Gb памяти), но справляется. Два прохода:

  • Схлопывание текстовых многополевых атрибутов в idы (индексирование).
  • Обработка (агрегация разного рода) полученных индекс-файлов, получение отчетов.

Ну и всякие там хитрости, вроде все разумно. Опять таки, убьют наверно баннерорезки и этот бизнес.