Exploration approfondie grâce à l'API Twitter : iPhone 4S contre Galaxy Nexus

Nous avons découvert des données intéressantes en explorant en profondeur le débat entre l'iPhone 4S et le Galaxy Nexus, en utilisant l'API de recherche Twitter. Dans le monde actuel, une quantité considérable de données est disponible en ligne et peut être utilisée pour la recherche, l'analyse de marché et la veille concurrentielle. Bien que le terme "Big Data" puisse poser des problèmes pour ceux qui le produisent, le stockent et l'analysent, il est très bénéfique pour ceux d'entre nous qui recherchent des réponses. Heureusement, une partie de ces données est accessible en ligne, et, en particulier, il existe une grande quantité de données concernant les interactions sur les réseaux sociaux.

Dans cet article, nous allons explorer comment utiliser API de recherche Twitter de MapForce, AltovaNotre outil de cartographie, de conversion et d'intégration de données nous permet de collecter des informations sur les récentes publications des utilisateurs ("tweets") concernant deux sujets très populaires : la comparaison entre l'iPhone 4S d'Apple et le Galaxy Nexus, le dernier smartphone Android très en vogue. Nous pouvons ainsi extraire des données statistiques sur les utilisateurs qui participent à ces discussions. L'un des avantages de cette grande quantité de données disponibles aujourd'hui est que nous pouvons les analyser de manière intéressante et en tirer de nouvelles informations.

Bien qu'il existe sans aucun doute de nombreux services qui proposent déjà des analyses de tendances sur les sujets abordés sur Twitter (par exemple, Trendistic), ces services ne proposent que des tendances très simples et ne permettent pas d'effectuer des analyses plus approfondies. Cependant, toutes les données sous-jacentes sont accessibles si vous êtes prêt à apprendre quelques notions sur les API des services web et sur la manière de les utiliser pour extraire des données XML, qui pourront ensuite être traitées. Pour commencer, utilisons l'API de recherche Twitter pour interroger le flux de tweets récents et récupérer les 100 derniers messages qui mentionnent "Galaxy Nexus" Les Consignes d'utilisation de la recherche Twitter indiquent que l'utilisation des deux mots dans une requête entraînera l'utilisation de l'opérateur par défaut, qui est "ET", nous allons donc rechercher des publications qui contiennent les termes "Galaxy ET Nexus". Alors, essayons cela et demandons les 100 éléments les plus récents :

http://search.twitter.com/search.atom?q=galaxy+nexus&rpp=100

Si vous cliquez sur ce lien, une deuxième fenêtre s'ouvrira, affichant une grande quantité de données XML brutes, formatées selon les spécifications du format de syndication Atom. Vous pouvez également demander les données au format JSON, si vous souhaitez les traiter directement à l'aide de code JavaScript, mais nous utiliserons le format Atom basé sur XML afin de pouvoir facilement analyser les données et extraire les informations souhaitées. L'affichage du résultat de la recherche ci-dessus dans un navigateur n'est pas très convivial, nous pouvons donc jeter un coup d'œil rapide aux données XML dans notre éditeur XML préféré en utilisant la fonction "Ouvrir depuis une URL" :

Comme vous pouvez le constater, les données de chaque élément comprennent un code de langue. Pour cet exemple, nous allons donc extraire des données à partir de ce flux Twitter, ainsi que des résultats d'une deuxième recherche sur le sujet "iPhone 4S", et les combiner dans un fichier XML intermédiaire pour une analyse ultérieure. L'extraction de données XML est très simple dans MapForce : en utilisant l'option "Insérer un fichier XML", nous pouvons, comme précédemment, spécifier la même URL. Si nécessaire, MapForce créera automatiquement un schéma XML pour les données fournies, ce qui nous permettra de les visualiser et d'en extraire des informations :

Dans notre schéma de transformation, nous avons intégré deux sources sur le côté gauche : l'une utilise une chaîne de requête pour rechercher "Galaxy Nexus" et l'autre pour rechercher "iPhone 4S". Sur le côté droit, nous avons intégré un simple schéma XML qui nous permettra de regrouper nos données et de les analyser plus facilement à l'avenir. Dans ce cas, la correspondance entre les deux côtés est simple, car nous extrayons uniquement des informations de base sur l'utilisateur, la date et la langue du tweet. Cependant, dans d'autres applications, la correspondance pourrait être plus complexe et inclure des fonctions ainsi que des requêtes vers d'autres sources de données, bases de données ou services web... Il est possible de prévisualiser les données XML résultantes directement dans MapForce, en utilisant l'onglet de sortie, et voici ce que nous obtenons en résultat de notre transformation de données :

Maintenant, nous pouvons facilement utiliser les fonctionnalités de reporting de StyleVision pour regrouper ces données par langue au sein de chaque sujet et compter le nombre de publications dans chaque langue. Nous pouvons ensuite présenter ces données sous forme de graphiques circulaires, ce qui permet d'obtenir les résultats intéressants suivants :

Évidemment, ces données dépendent fortement de la date et de l'heure d'exécution, ainsi que des annonces spécifiques concernant ces produits, de sorte que les chiffres peuvent varier considérablement. Cependant, elles peuvent être utilisées comme un outil de suivi utile pour observer les tendances propres à chaque langue. Une fois ce système mis en place, le rapport peut être facilement mis à jour en un simple clic pour obtenir une vue d'ensemble à un moment donné. Pour une analyse à plus long terme, il serait bien sûr nécessaire de modifier légèrement la configuration pour interroger plus de 100 tweets récents. Dans cet article, nous avons utilisé l'API de recherche de Twitter comme source de données, et nous nous sommes uniquement concentrés sur la langue comme un seul point de données. Cependant, de nombreuses autres sources de données intéressantes sont disponibles en ligne, et cette approche peut être utilisée de manière similaire pour toutes ces sources. Si vous souhaitez expérimenter avec d'autres sources de données et d'autres types d'informations que vous souhaitez extraire, nous vous invitons à essayer par vous-même.

A Une version d'évaluation gratuite de 30 jours de MapForce est disponible, et il n'y a aucune limite à la manière dont vous pouvez l'utiliser les autres fonctionnalités de l'outil de mappage et de conversion de données d'Altova pour les tâches de traitement de données qui vont au-delà de l'analyse des tendances sur les réseaux sociaux