« Topic Data », le vrai-faux firehose de Facebook

« Topic Data », le vrai-faux firehose de Facebook

Mardi 10 mars, une annonce Facebook a fait l’effet d’une bombe dans la communauté marketing et l’industrie du social media intelligence. Facebook ouvre son firehose !

Facebook s’allie en effet avec Datasift pour lancer « Topic Data » et donner un accès à certaines informations sur les statuts Facebook de leurs utilisateurs. Nous nous sommes penchés sur la nouvelle et l’avons décortiquée pour vous. Elle se décompose notamment en deux éléments, la notion de « firehose » et les résultats à attendre de « Topic Data ».

 

Un Firehose ? Qu’est-ce que c’est ?

Le terme « Firehose » nous vient de Twitter. En 2010, Twitter a décidé de commercialiser l’accès aux tweets via leur API.

Trois options sont alors possibles :

  • Spritzer : Un accès gratuit à environ 1% des tweets, via l’API publique.
  • Gardenhose : Un « tuyau de jardinier » pour capter entre 10 et 20% des  tweets, via une API délivrée par Twitter au cas par cas.
  • Firehose : Un accès à 100% des tweets publiques (soit 500 millions de tweets par jour) en temp réel. Cette « lance à incendie » coûte $1 pour 1 000 tweets.

Trois sociétés spécialisées se sont vite démarquées en achetant l’accès au Firehose et en proposant de le revendre : Gnip (racheté par Twitter), Topsy (racheté par Apple) et Datasift (assailli de rumeurs d’acquisition). Datasift est partenaire avec la majorité des médias sociaux pour proposer un accès aux API de Twitter, Reddit, WordPress, Tumblr, Wikipedia, Youtube, IMDb etc… ces API sont des briques indispensables pour faire de la veille sur les médias sociaux. Et jusqu’à présent Facebook ne donnait un accès qu’aux pages et groupes publiques.

 

 Topic Data de Facebook : des données anonymisées

L’annonce de « Topic Data » promet de pouvoir tirer des insights sur les 1.3 milliards d’utilisateurs Facebook. Il suffit d’entrer des requêtes sur le nom de marque ou n’importe quel mot-clé pertinent pour ensuite obtenir des données anonymisées sur le sujet. Les données sont livrées par Facebook à Datasift qui les redistribue à ses clients. Facebook et Datasift ont travaillé avec Privacy by Design, une organisation gouvernementale canadienne dédiée à l’anonymisation des données afin de protéger la vie privée de leurs utilisateurs. Cette option permet à Facebook de puiser dans l’immense majorité des statuts/photos ou vidéos que ses utilisateurs publient en privé, tout en gardant leur anonymat.

Ces règles du jeu contraignent donc l’industrie à changer certaines pratiques, sur le plan de l’analyse mais également sur le degré de confiance à accorder aux insights.

Firehose pic

 

Les limites du vrai-faux Firehose

Étant donné que l’accès a « Topic Data » est limité, on ne peut réellement pas l’appeler un « Firehose ». Nous notons les quelques limites qui méritent d’être énoncées :

  1. Pas d’accès aux données brutes :   Les données ne donneront que des chiffres et peu de détails sur le contenu réel. Si vous avez déjà fait un export Excel des analytics d’une page Facebook, attendez vous au même principe.
  2. La Boîte noire : En l’absence de données brutes,  il faut faire confiance à Facebook pour filtrer le bruit, le spam, le faux… mais aussi pour assurer un niveau de qualité dans l’analyse du texte. En janvier Facebook a fait l’acquisition de Wat.ai des spécialistes en « Natural Language Processing », donc on peut espérer un taux de fiabilité habituel, soit autour de 75%. Par exemple, en cas de mauvaise qualification automatisée de l’ironie, il sera impossible d’estimer ou rectifier des erreurs à la main.
  3. Absence d’archives : La data n’est disponible que sur 30 jours glissant et ne permet pas de consulter le passé. Cette limite complique l’analyse des saisonnalités ou la détection des tendances et signaux faibles.
  4. 100 personnes minimum : Si la marque ou le marché est trop petit et insuffisamment mentionné, Facebook ne livrera pas de données afin de ne pas compromettre l’anonymat des utilisateurs.
  5. Données uniquement disponibles sur les US et UK : Ces marchés sont plus matures sur le sujet et sont naturellement les premiers à bénéficier de Topic Data. Il s’agit néanmoins d’un déploiement progressif, les autres pays et langues devraient suivre.

Nous voyons ici une limitation technologique qui peut poser problème. Un simple accès à un dashboard ou à un outil de veille n’est pas suffisant. Il s’agit également de s’assurer de la véracité de la donnée et de combler les lacunes des outils par de l’analyse humaine. Nous avons déjà des approches et méthodologies qui permettront de faciliter la compréhension et la contextualisation du sujet.

Si vous voulez plus de détails sur les données disponibles dans l’API, cliquez ici.

 

Des opportunités dans la Social TV ?

Pour conclure, plusieurs industries vont pouvoir bénéficier de Topic Data. Par exemple, la social TV voit un nouveau monde d’opportunités s’ouvrir ! Les français sont nombreux à commenter les émissions de TV en direct de leurs statuts Facebook. En analysant ces données les émissions pourront adapter leur contenu, jauger les audiences intéressées et également estimer l’impact de « bad buzz » perçus sur Twitter mais pas forcément ailleurs. Nielsen Twitter TV Ratings aura des sources complémentaires de données à apporter aux acteurs de la Social TV.

Facebook Topic Data est une progression intéressante pour notre secteur et va fournir des insights intéressants aux entreprises souhaitant toujours mieux comprendre leurs clients, leur marché et leurs parties prenantes. Les limites de Topic Data ne seront que technologiques et pourront être ménagées par de bons analystes.