À la fin de l’année dernière, Google annonçait que son moteur de machine learning TensorFlow devenait open source. Certaines parties du code restent propriétaires, notamment celles permettant de distribuer les calculs sur plusieurs machines, mais TensorFlow est néanmoins pleinement utilisable en l’état.
Niveau technique, TensorFlow représente les flux de données sous forme de graphes, où les nœuds et les arrêtes représentent respectivement des opérations et des tenseurs (i.e. des tableaux multidimensionnels). Ces graphes sont des représentations complètes des calculs qui sont ensuite exécutés sur le CPU ou le GPU. Ces calculs sont optimisés en C++ mais une API permet d’utiliser TensorFlow via Python.
Des données …
D’un point de vue général, cette initiative de Google montre que la vraie valeur vient des données, pas des logiciels, ni des algorithmes. Les données restent propriétaires, les logiciels deviennent libres. Il s’agit ici d’une tendance de fond dans l’industrie et Google n’est pas seul dans la course aux données. Le rachat récent de The Weather Channel par IBM pour alimenter Watson en données nouvelles en est la preuve.
… et des hommes
Mais pourquoi des entreprises comme Google ou Facebook rendent-elles leurs modèles open source ? Certains pensent qu’il s’agit d’un héritage d’une pratique courante chez les universitaires (et ce sont souvent eux qui sont embauchés dans les départements data science de ces grands groupes). D’autres évoquent le fait que les logiciels open source voient leur développement accéléré grâce à la création d’une communauté. Mais le but inavoué est peut-être finalement d’attirer des nouveaux talents, l’autre nerf de la guerre après les données.
Crédit image : Google

