DataScience-et-IA

Analyse de données

Analyse de données

En local

Lorsque le volume de données est faible et que le temps de traitement n'est pas une contrainte forte, l'analyse peut se faire facilement à partir du couple python/pandas.pandas permet de manipuler facilement des données : recherches, tris, jointures, ...pyarrow est un autre produit de manipulation de données. Plus rapide que pandas mais moins intuitif.

Au delà de la manipulation de données, le produit scikit-learn permet d'exploiter des algorithmes d'apprentissage automatiques en python : forêts aléatoires, régressions logistiques, k-moyennes, ...

  • l'apprentissage basé sur des réseaux de neuronespytorch/caffe, tensorflow/keras

Distribution et clusters

Pour passer à de gros traitements, il est efficace de distribuer la donnée et de géolocaliser le calcul par rapport à la données.

Systèmes de stockage distribués :Hadoop, Cassandra, HBase, ...

Systèmes de calculs distribués :Spark, Dask, Storm, ...

Ces produits sont généralement exploitables en python.Scala et python sont parmi les langages les plus adaptés à ce type d'applications. Scala en tant que langage fonctionnel et Python par sa bibliothèque existante.

Visualisation

matplotlib, seaborn, bokeh, plotly, ...

Sujets connexes :



Phirio

01 55 33 52 10
info@phirio.fr
Calendrier