Dans Les Coulisses du Nouveau Livre “Data Science : Fondamentaux et Etudes de Cas”

livre

L’éditeur Eyrolles vient de sortir un nouvel ouvrage sur le Machine Learning : “Data science : fondamentaux et études de cas”, qui s’impose d’ores et déjà comme une référence dans le domaine.

Eric Biernat, l’un des deux auteurs, est un passionné de data science. Classé parmi les meilleurs français sur Kaggle, la data est aussi son métier. Il est à la tête de l’équipe data science d’OCTO Technologies.

FrenchData a pu le rencontrer, et lui poser quelques questions.

Comment t’es venue l’idée d’écrire ce livre ? Comment as-tu rencontré ton co-auteur ?

Le premier contact avec Eyrolles remonte à mai 2014. A l’époque, j’avais déjà dans un tiroir une ébauche d’une quarantaine de pages, qui reflétait l’esprit que je voulais donner à ce livre.

Il me semblait qu’il existait une place pour un ouvrage en français, situé quelque part entre “Elements of statistical learning”, très académique, et d’autres livres sur le Big Data, très généralistes.

Je me suis associé avec Michel Lutz, qui travaille dans mon équipe, parce que nous étions complémentaires. Michel vient du monde académique, et a appliqué ses connaissances en statistiques dans différentes industries. Pour ma part, je suis ingénieur et ai appris le machine learning sur Kaggle, en l’appliquant surtout dans les domaines banque et finance.

Que trouve-t-on dans le livre ? A qui s’adresse-t-il ?

Il y a deux axes de lecture possibles. Pour les débutants qui veulent découvrir le machine learning, on y aborde tous les fondamentaux, comme par exemple la cross validation, les random forest ou le sur-apprentissage.

Mais nous aurions été frustrés d’en rester là. C’est pourquoi l’autre moitié du livre détaille beaucoup plus précisément certaines notions. Nous avons souhaité que cela puisse servir de référence aux spécialistes. Cette partie a été bien plus longue et complexe à écrire. Nous y décortiquons par exemple en profondeur les SVM, ou les séries temporelles.

Tu évoques à la fois R et Python. Pourquoi les deux langages en même temps, et lequel utilises-tu personnellement, et professionnellement ?

Nous utilisons ces deux langages, car ce sont ceux que nous rencontrons dans la vraie vie ! C’est ainsi que le marché est structuré. Nous ne voulions pas que qu’une communauté soit exclue. A titre personnel, je suis un grand fan de Python. Michel est quant à lui un expert de R. Cela tombait donc bien !

As-tu une anecdote sur l’écriture du livre ?

J’ai une immense admiration pour Yann LeCun, le père du Deep Learning, et actuellement directeur du laboratoire d’Intelligence Artificielle de Facebook. Un de mes rêves était qu’il accepte de préfacer le livre.

Lors d’un évènement organisé par OCTO, j’ai eu la chance de pouvoir m’entretenir avec lui. Mais, impressionné par cette rencontre, je n’ai finalement pas osé lui demander.

Quelques heures plus tard, après avoir raconté cette opportunité manquée à mon boss, il me prend la main comme un gamin et m’emmène retourner voir Yann. Ce dernier était attablé avec Peter Norvig, un autre monstre sacré de l’intelligence artificielle chez Google. Sans détour, nous les interrompons et je demande à Yann s’il accepterait de préfacer le livre. Il a immédiatement accepté !

Ce moment inattendu restera longtemps dans mes souvenirs. L’humilité, et la facilité d’accès de ces deux grands scientifiques m’ont impressionné.

Tu es un grand fan de concours de data science. Tu pratiques depuis plusieurs années, et c’est également ton métier. Quelles tendances observes-tu ?

Tout d’abord, je suis stupéfait de voir à quel point la Data s’invite dans les discussions au plus haut niveau des organisations. C’est probablement la première fois que des sujets aussi techniques sont directement abordés par des PDG et des comités exécutifs de grands groupes. Cette prise de conscience prouve que nous vivons réellement une révolution, qui va durer des années, et tout bouleverser.

J’observe également un changement dans l’utilisation du machine learning par les métiers. Pour l’instant, les algorithmes prédictifs permettent de mieux segmenter, prioriser, détecter, etc. . Cependant cela ne suffit plus, et un second besoin est en train d’émerger : que faire de cette information ? Quelle décision prendre ? L’algorithme me dit qu’un client risque de partir, mais j’ai besoin d’aller plus loin, et de savoir quelle est la meilleure action à mener pour éviter cela.

Enfin, même si c’est un métier jeune, les compétences du Data Scientist sont déjà en train de changer. L’aspect “software engineering” devient de plus en plus prépondérant. Oui, le Data Scientist doit être “matheux”, et savoir maitriser des algorithmes complexes. Mais celui qui ne maitrise pas suffisamment le logiciel va vite se trouver dépassé.

Eric présentant la solution de son équipe au challenge Kaggle Tradeshift, évoqué dans le livre

0 réponses

Répondre

Vous souhaitez vous joindre à la discussion ?
N'hésitez pas !

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>