Учебные пособия и примеры наборов данных
У нас есть много ресурсов, которые помогут вам начать и узнать, как работает ClickHouse:
- Если вам нужно быстро запустить ClickHouse, ознакомьтесь с нашим Быстрым стартом
- Учебник ClickHouse анализирует набор данных такси Нью-Йорка
Кроме того, примеры наборов данных предоставляют отличные возможности для работы с ClickHouse, изучения важных техник и трюков, а также того, как воспользоваться множеством мощных функций ClickHouse. Примеры наборов данных включают:
Страница | Описание |
---|---|
Данные такси Нью-Йорка | Данные о миллиардах поездок на такси и заказных автомобилях (Uber, Lyft и т. д.), начинающихся в Нью-Йорке с 2009 года |
Логи кликов Criteo размером в терабайт | Терабайт логов кликов от Criteo |
WikiStat | Изучите набор данных WikiStat, содержащий 0,5 триллиона записей. |
TPC-DS (2012) | Набор данных TPC-DS и запросы. |
Набор данных рецептов | Набор данных RecipeNLG, содержащий 2,2 миллиона рецептов |
Открытые данные COVID-19 | Открытые данные COVID-19 - это большая открытая база данных эпидемиологических данных COVID-19 и связанных факторов, таких как демография, экономика и реакции правительства |
Глобальная историческая климатология NOAA | 2,5 миллиарда строк климатических данных за последние 120 лет |
Набор данных событий GitHub | Набор данных, содержащий все события на GitHub с 2011 года по 6 декабря 2020 года, объемом 3,1 миллиарда записей. |
Отзывы клиентов Amazon | Более 150 миллионов отзывов клиентов о продуктах Amazon |
Бenchmark Brown University | Новый аналитический бенчмарк для данных журналов, сгенерированных машинами |
Написание запросов в ClickHouse с использованием данных GitHub | Набор данных, содержащий все коммиты и изменения для репозитория ClickHouse |
Анализ данных Stack Overflow с помощью ClickHouse | Анализ данных Stack Overflow с помощью ClickHouse |
Бенчмарк больших данных AMPLab | Набор данных для бенчмарков, используемый для сравнения производительности решений для хранения данных. |
Набор данных Библиотеки Нью-Йорка "Что в меню?" | Набор данных, содержащий 1,3 миллиона записей исторических данных о меню отелей, ресторанов и кафе с блюдами и их ценами. |
Набор данных Laion-400M | Набор данных, содержащий 400 миллионов изображений с английскими подписями к изображениям |
Бенчмарк звёздной схемы (SSB, 2009) | Набор данных и запросы Бенчмарка звёздной схемы (SSB) |
Набор данных цен на недвижимость Великобритании | Узнайте, как использовать проекции для повышения производительности часто выполняемых запросов, используя набор данных о ценах на недвижимость Великобритании, который содержит данные о ценах, уплаченных за недвижимость в Англии и Уэльсе |
Набор данных комментариев Reddit | Набор данных, содержащий общедоступные комментарии на Reddit с декабря 2005 года по март 2023 года с более чем 14 миллиардами строк данных в формате JSON |
OnTime | Набор данных, содержащий данные о выполнении рейсов авиакомпаний по расписанию |
Исторические метеорологические наборы данных Тайваня | 131 миллион строк данных наблюдения за погодой за последние 128 лет |
Краудсорсинг данных о воздушном движении от сети The OpenSky в 2020 году | Данные в этом наборе данных основаны на полном наборе данных OpenSky и очищены для иллюстрации развития воздушного движения во время пандемии COVID-19. |
Данные жалоб NYPD | Прием и запрос данных в формате табуляции в 5 шагах |
TPC-H (1999) | Набор данных и запросы для бенчмарка TPC-H. |
Набор данных дислайков YouTube | Коллекция дислайков видео на YouTube. |
Геоданные с использованием набора данных вышек сотовой связи | Узнайте, как загрузить данные OpenCelliD в ClickHouse, подключить Apache Superset к ClickHouse и создать панель управления на основе данных |
Данные об экологических датчиках | Более 20 миллиардов записей данных от Sensor.Community, глобальной сети датчиков, созданной участниками, которая генерирует открытые экологические данные. |
Анонимизированная веб-аналитика | Набор данных, состоящий из двух таблиц, содержащих анонимизированные данные веб-аналитики с переходами и визитами |