Get Appointment

Введение

Обработка огромного количества данных в реальном времени - это огромная задача для любой технологической компании. Twitter, обрабатывающий 400 миллиардов событий ежедневно, разработал новый подход для эффективного управления таким огромным объемом данных. В этой статье рассматривается переход Twitter к новой архитектуре обработки данных в реальном времени, демонстрируя инновационное использование модели Kappa для повышения производительности и точности.

Переход к Архитектуре Kappa

Новая архитектура Twitter использует модель Kappa, упрощая процесс за счет использования единой конвейерной обработки данных в реальном времени. Этот подход заменил старую архитектуру lambda, которая полагалась на отдельные конвейеры для пакетной и реальной обработки данных. Новая система предварительно обрабатывает события Kafka на месте, преобразует их в формат Google PubSub и использует Google Dataflow для дедупликации и агрегации. Окончательные результаты хранятся в BigTable.

Этот упрощенный процесс устраняет необходимость в пакетной обработке данных, значительно снижая сложность и затраты, обеспечивая при этом надежную обработку поздних событий и минимизируя потерю данных.

Ключевые Показатели Новой Архитектуры

  • Задержка: Новая архитектура достигает стабильной задержки ~10 секунд, что значительно улучшает предыдущий диапазон от 10 секунд до 10 минут.
  • Пропускная Способность: Пропускная способность значительно увеличилась до ~1 ГБ/с по сравнению с максимальной пропускной способностью старой архитектуры ~100 МБ/с.
  • Точность Обработки: Почти точная однократная обработка достигается за счет публикации данных в формате at-least-once в Google PubSub и дедупликации в Dataflow.
  • Экономичность: Устранение пакетных конвейеров приводит к значительной экономии затрат, упрощая общую архитектуру.
  • Точность Данных: Более 95% результатов нового конвейера соответствуют старому пакетному конвейеру с улучшенной обработкой поздних событий.
  • Потеря Событий: Новая система обеспечивает отсутствие потери событий во время перезапусков, поддерживая целостность и надежность данных.

Заключение

Приняв архитектуру Kappa, Twitter значительно улучшил свои возможности обработки данных в реальном времени. Эта новая система не только повышает производительность и точность, но и упрощает конвейер обработки данных, делая его более экономичным и эффективным. Инновационный подход Twitter устанавливает новый стандарт для обработки данных в реальном времени, обеспечивая надежную обработку 400 миллиардов событий ежедневно.

Следите за нашими следующими статьями для получения дополнительной информации о передовых технологиях обработки данных.