En quoi l’informatique est-elle différente de la science des données ?


La science des données n'est pas une science, ni même une chose ; c'est juste un terme à 50 centimes d'euro pour l'analyse des données, qui est le processus consistant à dériver des informations (compréhension utile et significative) à partir de données, et généralement de beaucoup de données. Pour la recherche et le développement et à des fins académiques, le terme "science" a une belle consonance, mais les sciences formulent toutes des hypothèses et mènent des expériences et/ou des observations pour déterminer la justesse de ces hypothèses. La "science" des données utilise des méthodes spéculatives pour tenter de trouver des conclusions nouvelles et largement non recherchées. Si je voulais savoir où je dois placer les chips dans mon épicerie, l'analytique peut m'aider à répondre à cette question, mais pas avec un niveau de certitude scientifique. L'analytique part du principe que la corrélation est suffisamment proche de la causalité, et que je finirai donc par placer les chips à côté de la bière. Si mes ventes de chips augmentent, nous sommes tous contents. Les valeurs P n'entrent jamais en ligne de compte. J'ai peut-être utilisé l'apprentissage automatique et/ou les statistiques pour faire cette détermination, mais je ne peux jamais démontrer qu'il y a une corrélation. C'est très bien ; toutes les choses ne peuvent ou ne doivent pas être étudiées scientifiquement.


L'informatique est un vaste domaine qui étudie la nature du calcul, sa mise en œuvre et son application. L'analyse de données est une telle application. Les gens affirmeront à juste titre que l'analyse de données est un domaine interdisciplinaire, mais l'informatique l'est aussi, donc je ne suis pas sûr du point.

Enfin, l'analyse de données et les mathématiques, bla, bla, bla, les mathématiques ne sont pas la partie importante. Ce qui est important, c'est l'application des méthodes de recherche quantitative des sciences sociales, qui utilisent les statistiques. De plus en plus, nous constatons que les modèles mathématiques peuvent être substitués et/ou manipulés pour démontrer (plutôt qu'étudier réellement) un résultat prédéterminé. C'est une mauvaise chose. Très mauvais. Dans les sciences, on appelle cela le "p-hacking". Une grande partie de l'application de la technologie informatique, y compris l'analyse des données, est un vœu pieux, plutôt qu'une compréhension valable du monde. Vous ne pouvez pas prédire ou comprendre le comportement humain sans d'abord comprendre les humains. Il existe des applications de l'analytique de données qui vont au-delà des données humaines, mais elles sont rares.