42 тыс узлов в кластере: Which Big Data Company has the World’s Biggest Hadoop Cluster? – HadoopWizard

Источник: Which Big Data Company has the World’s Biggest Hadoop Cluster? – HadoopWizard

Of the companies listed, Yahoo! has by far the most number of nodes in its massive Hadoop clusters at over 42,000 nodes as of July 2011.  Facebook, however, may have the largest publicized Hadoop data size, although it runs at 2,000 nodes as of July 2011, far less than Yahoo, but still a massive cluster nevertheless.  LinkedIn is getting up there in node count also, as well as a few others like Quantcast.  Many of the smaller companies on the list run their Hadoop clusters in the cloud, as with Amazon EC2 for example, and thus can scale up quickly as needed.  For our sharp-eyed readers, as to why a few notable companies are missing from this list, see further below.

Methodology

As the basis of the source data, I used the Apache Hadoop Wiki “Powered By Hadoop” page last updated December 20, 2012.  The entries on that wiki page were put forward by the respective companies and might not contain the latest information.  If anyone knows of a better data source, please let me know and I’ll update this visualization.  I did get other information about the sizes of Yahoo!’s and Facebook’s Hadoop clusters, which I used instead, for those specific data points.  Given the fast growth of big data adoption in internet companies, we’ll likely see rapid shifts in the leaderboard in the next year or so.

Sizes are hard to compare without a standard unit of measure.  I compared the cluster sizes by nodes, instead of data volume size (up to Petabytes!) or CPU cores.  If the company didn’t indicate the number of nodes, I made some assumptions.  I considered one server to be the same as one node, regardless of the number of CPU cores.  I assume a typical node to be a quad-core server, so for example, I will assume Quantcast’s 3000 core installation is equivalent to 750 nodes.  If the company listed a range of sizes, then I used the higher end of the range.

Other Companies

Notably, there are some well-known companies like Google and Walmart which were not listed here.  Google uses its own proprietary version of MapReduce and Google File System instead of the open-source Hadoop. Additionally, Google keeps its data center architecture a closely held secret, but occasionally journalists get a glimpse of the behind-the-scenes and take a guess at the full size of its infrastructure.  As for other companies, they did not disclose their Hadoop cluster sizes on the Apache Hadoop Wiki either.  For all the companies in this visualization, see the appendix below.

See Also

Additionally, see the Top Big Data Companies Using Hadoop for a more thorough list of companies.

Also see Up and Coming Big Data Vendors in 2013

 

Yahoo! из перечисленных компаний На сегодняшний день наибольшее количество узлов в его огромных кластерах Hadoop составляет более 42 000 узлов по состоянию на июль 2011 года. Однако Facebook может иметь самый большой опубликованный размер данных Hadoop, хотя по состоянию на июль 2011 года он работает на 2000 узлах, что намного меньше, чем Yahoo , но все же массивный кластер тем не менее. LinkedIn также находится в числе узлов, как и некоторые другие, такие как Quantcast. Многие из небольших компаний в списке используют свои кластеры Hadoop в облаке, как, например, в Amazon EC2, и, следовательно, могут быстро масштабироваться по мере необходимости. Для наших проницательных читателей о том, почему некоторые известные компании отсутствуют в этом списке, см. Ниже.
методология

В качестве исходных данных я использовал вики-страницу Apache Hadoop «Powered By Hadoop», последний раз обновленную 20 декабря 2012 года. Записи на этой вики-странице были представлены соответствующими компаниями и могут не содержать самую последнюю информацию. Если кто-нибудь знает лучший источник данных, пожалуйста, дайте мне знать, и я обновлю эту визуализацию. Я получил другую информацию о размерах кластеров Hadoop в Yahoo! И Facebook, которые я использовал вместо этих конкретных точек данных. Учитывая быстрый рост внедрения больших данных в интернет-компаниях, мы, вероятно, увидим быстрые изменения в списке лидеров в следующем году или около того.

Размеры трудно сравнивать без стандартной единицы измерения. Я сравнил размеры кластеров по узлам, а не по объему данных (до петабайт!) Или ядрам процессора. Если компания не указала количество узлов, я сделал несколько предположений. Я считал, что один сервер совпадает с одним узлом, независимо от количества ядер ЦП. Я предполагаю, что типичным узлом является четырехъядерный сервер, поэтому, например, я предполагаю, что установка ядра Quantcast 3000 эквивалентна 750 узлам. Если компания указала диапазон размеров, то я использовал верхний предел диапазона.
Другие компании

Примечательно, что есть некоторые известные компании, такие как Google и Walmart, которые не были перечислены здесь. Google использует собственную проприетарную версию MapReduce и Google File System вместо Hadoop с открытым исходным кодом. Кроме того, Google хранит свою архитектуру центров обработки данных в секрете, но иногда журналисты могут заглянуть за кулисы и высказать предположение о полном размере своей инфраструктуры. Что касается других компаний, то они не раскрывают размеры своих кластеров Hadoop в Apache Hadoop Wiki. Для всех компаний, представленных в этой визуализации, см. Приложение ниже.
Смотрите также

Кроме того, см. Топ компаний с большими данными, использующих Hadoop, для более полного списка компаний.

См. Также «Новые поставщики больших данных в 2013 году».

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *