Combien de méga-octets de données Facebook stocke-t-il sur un utilisateur moyen ?


*NOTE : le calcul ci-dessous suppose que Hive n'est qu'une des plus grandes bases de données de Facebook. Le calcul est basé sur 4 nouveaux pétaoctets par jour, normalisés sur le graphe des utilisateurs de facebook. Cela ne prend pas en compte les changements de comportement des utilisateurs dans le temps ou vraiment rien du tout, donc je ne ferais pas confiance à ces chiffres avec votre vie.

"Hive est l'entrepôt de données de Facebook, avec 300 pétaoctets de données dans 800 000 tables. Facebook génère 4 nouveaux pétaoctets de données et exécute 600 000 requêtes et 1 million de travaux map-reduce par jour. Presto, HiveQL, Hadoop et Giraph sont les moteurs de requête courants sur Hive."


Source : Facebook's Top Open Data Problems

Le nombre d'utilisateurs de Facebook est de 1,86 Milliard.

Facebook a été fondé le 4 février 2004, ce qui correspond parfaitement à 5000 jours de la date à laquelle j'écris ce billet.

main-qimg-a06ab9f1b9f41c1853186dfa108c6c5c.webp

Voici les utilisateurs actifs mensuels de facebook. Ce graphique est un peu daté, mais nous pouvons simplement créer une ligne de régression de sep 08-oct 15 et faire un peu de 'edjicated guessing'.'

(Note. Je suis trop paresseux, donc je vais juste prendre (1550-100)/(oct15-sep08) et le deviner à l'œil)

En utilisant la méthode note^, la pente est

main-qimg-feeb5b0750b1289479cdb6c56c977b2a.webp

+17,06 millions d'utilisateurs par mois.

En supposant qu'il y ait 0 utilisateur en avril 2008, (en coupant les " valeurs aberrantes ") on peut trouver que les utilisateurs attendus aujourd'hui sont

main-qimg-3fc2b24137a202cda46fe601d792d851.webp

ce qui est un peu élevé. Mais ça fera l'affaire.

Maintenant, nous devons normaliser le tout. A 1944M, fb collecte 4 PB de données/jour, ce qui fait 120 PB/mois.

Alors maintenant, nous redessinons le graphique

main-qimg-6f163590eec364303ddabc188408eb02.webp

La pente devrait maintenant être 17,06/120=0,142

Cela signifie que chaque mois depuis avril 2008, la quantité de données que facebook collecte/mois augmente de 0,142.

Que cela signifie-t-il ?

Nous avons 114 mois depuis avril 2008.

main-qimg-5b7a3ddacaa3b586602c6093bd7a5199.webp

Nous intégrons donc la fonction et obtenons 922 PB.

922PB/1860M d'utilisateurs est égal à

main-qimg-4cb36250ebbb1c3d8009871aca7047be.webp

Et voilà. Environ 500 mégaoctets par utilisateur. (Et nos chiffres étaient un peu élevés. De plus, fb pourrait avoir des données secrètes donc vraiment, qui sait ?)

.