Exploiter des giga octets de données est à la fois simple et compliqué. Simple, car les outils mathématiques pour extraire des corrélations existent depuis longtemps. Compliqué, car les 3 V du big data (Volume, vitesse et variétés des formats) ont obligé les informaticiens à développer de nouveaux outils d’infrastructure, qui ne cesse d’évoluer dans le temps. Petite synthèse.
Pour faire parler les big data, le data scientist utilise des outils d’infrastructure, qui collectent, stockent et préparent les données, quels que soient leur source ou leur format (structuré, semi-structuré ou non structuré). Puis, avec les outils d’analyse et de visualisation, que l’on retrouve dans le »
Votre commentaire