Un domaine très actif en data science et en physique des systèmes complexes est la prédiction des comportements humains. A l’occasion de la Saint Valentin, Facebook a fait le buzz en montrant des corrélations entre des comportements amoureux et des statistiques sur les billets postés. Cela a suscité beaucoup de réactions sur le mode «Facebook peut prédire votre comportement». Mais est-ce vraiment le cas?

L’un des billets les plus intéressants de la série montre par exemple l’évolution du nombre de billets moyens postés à l’intérieur d’un futur couple sur Facebook avant/après le début d’une relation, montrant une chute spectaculaire le jour de l’établissement de la relation.

Nous avons observé un pic de 1,67 billet par jour pendant 12 jours avant le début de la relation, suivie d’une décroissance ver un minimum de 1,53 billet par jour 85 jours après le début de la relation. Nous pouvons spéculer que les couples décident de passer plus de temps ensemble, et que les interactions en ligne font place à des interactions plus importantes dans le monde réel.

Il n’y a aucun doute que Facebook détecte ici un vrai signal, fort intéressant, mais pour autant Facebook est-il vraiment à même de prédire la formation d’un couple donné, voire de tous les couples? Est-ce l'équation de l'amour en ligne? Cela rejoint un problème assez commun dès que l’on parle de big data: la moyenne des données n’est pas forcément représentative du comportement typique.

Dans les systèmes complexes, les statistiques suivent plutôt les lois de ce que Nassim Nicholas Taleb appelle «l’extrêmistan»: un petit nombre d’événements «biaise» les moyennes (par exemple les lois «à longue traîne», dont des représentants sont les lois de puissance en physique ou lois de Pareto en économie).

Prenons un exemple hypercaricatural pour le cas présent: considérons une population de 99 couples, s’échangeant un message sur Facebook par jour. Ajoutons à cette population un couple, que nous appellerons Sheldon et Amy, qui, lui, est extrêmement actif sur Facebook, s’échangeant 100 messages par jour. De telles différences de comportement sont la norme sur Internet: la majorité des gens sont très peu actifs, et le maximum d’interactions est le fait d’une petite minorité. Le comportement «moyen» de nos 100 couples est alors un tout petit peu moins de 2 messages par jour. Mais on le voit ici, le comportement moyen n’est pas du tout représentatif du comportement typique: la moyenne est 2 fois plus élevée que le comportement de 99% de la population. Elle est fortement biaisée par le comportement d’un seul couple, Sheldon et Amy.

Maintenant, supposons que nos 100 couples commencent une relation. Pour les 99 couples la situation ne changera pas beaucoup: avec un message en moyenne par jour en temps normal, le comportement devrait rester assez bas, les fluctuations «normales» sont assez grandes de toute façon, donc il n'est pas dit que le nombre moyen de messages change drastiquement. Pour Sheldon et Amy, imaginons qu’effectivement, comme le suggère Facebook, ils interagissent davantage IRL —tout en échangeant tout de même 50 messages par jour. Alors la moyenne de messages échangée chute à environ 1.5 message par jour, exactement comme dans la courbe présentée par Facebook. Mais cette chute est ici due au comportement de 1% de la population, là où 99% de la population peut rester peu ou prou identique (c'est-à-dire en fait largement inactive).

Les données moyennes publiées par Facebook me semblent assez difficiles à interpréter telles quelles: elles ressemblent à la situation que je décris plus haut, avec un faible nombre moyen de messages, et une chute aussi relativement faible du signal moyen, suggérant qu’elle pourrait être en fait largement gouvernée par le seul changement de comportement des utilisateurs les plus actifs qui sont minoritaires. Facebook inclut dans son graphe une zone grisée suggérant une «barre d’erreur», mais n’explique pas ce que c’est: je doute qu’il s’agisse d’un écart type, mais qui sait…

Il serait en fait intéressant de voir en détail comment ce signal se comporte en fonction de la population considérée, comparant notamment ceux qui postent très peu à ceux qui postent beaucoup. Malheureusement, les données ne semblent pas publiques... Facebook peut prédire quelque chose, aucun doute, mais peut-il vraiment prédire beaucoup plus que le comportement de ses utilisateurs les plus actifs? C’est son intérêt de nous le faire croire, en tous cas…