*NOTE : le calcul ci-dessous suppose que Hive n'est qu'une des plus grandes bases de données de Facebook. Le calcul est basé sur 4 nouveaux pétaoctets par jour, normalisés sur le graphe des utilisateurs de facebook. Cela ne prend pas en compte les changements de comportement des utilisateurs dans le temps ou vraiment rien du tout, donc je ne ferais pas confiance à ces chiffres avec votre vie.
"Hive est l'entrepôt de données de Facebook, avec 300 pétaoctets de données dans 800 000 tables. Facebook génère 4 nouveaux pétaoctets de données et exécute 600 000 requêtes et 1 million de travaux map-reduce par jour. Presto, HiveQL, Hadoop et Giraph sont les moteurs de requête courants sur Hive."
Source : Facebook's Top Open Data Problems
Le nombre d'utilisateurs de Facebook est de 1,86 Milliard.
Facebook a été fondé le 4 février 2004, ce qui correspond parfaitement à 5000 jours de la date à laquelle j'écris ce billet.
Voici les utilisateurs actifs mensuels de facebook. Ce graphique est un peu daté, mais nous pouvons simplement créer une ligne de régression de sep 08-oct 15 et faire un peu de 'edjicated guessing'.'
(Note. Je suis trop paresseux, donc je vais juste prendre (1550-100)/(oct15-sep08) et le deviner à l'œil)
En utilisant la méthode note^, la pente est
+17,06 millions d'utilisateurs par mois.
En supposant qu'il y ait 0 utilisateur en avril 2008, (en coupant les " valeurs aberrantes ") on peut trouver que les utilisateurs attendus aujourd'hui sont
ce qui est un peu élevé. Mais ça fera l'affaire.
Maintenant, nous devons normaliser le tout. A 1944M, fb collecte 4 PB de données/jour, ce qui fait 120 PB/mois.
Alors maintenant, nous redessinons le graphique
La pente devrait maintenant être 17,06/120=0,142
Cela signifie que chaque mois depuis avril 2008, la quantité de données que facebook collecte/mois augmente de 0,142.
Que cela signifie-t-il ?
Nous avons 114 mois depuis avril 2008.
Nous intégrons donc la fonction et obtenons 922 PB.
922PB/1860M d'utilisateurs est égal à
Et voilà. Environ 500 mégaoctets par utilisateur. (Et nos chiffres étaient un peu élevés. De plus, fb pourrait avoir des données secrètes donc vraiment, qui sait ?)
.