aminedigirep | Digital Reputation Blog

20jan 2011

TweetMotif : Recherche avancée sur Twitter

La première fois que j’ai utilisé TweetMotif, je n’avais pas réussi à saisir sa réelle utilité ni comment l’exploiter. En lisant le papier qui explicite l’implémentation de cette application, une ampoule s’est allumée :).

TweetMotif est une version évoluée du Twitter Search, destinée à extraire les termes/expressions « les plus récurrents » qui se trouvent dans les résultats de recherche.

Concrètement : La recherche avec le mot clé « France » sur Twitter Search affiche le mot clé en gras dans un ordre chronologique décroissant.

TwitterMotif groupera les résultats de recherche par « Topic ». Un Topic est un groupe de 1 à 3 mots qui se répètent fréquemment dans les résultats de recherche. A gauche de l’outil, l’ensemble des Topics retrouvés dans les résultats. En cliquant sur un topic donné, s’affichent les tweets correspondants.

TwitterMotif peut s’avérer très utile pour disposer rapidement des perceptions sur un sujet donné. Je vous laisse deviner d’autres utilités.

Petit bémol : il se peut quand vous saisissez un mot clé donné, que l’outil ne réagisse pas. N’hésitez pas, donc, à rafraichir la page (sans modifier l’url).

Techniquement : TweetMotif utilise l’API SEARCH Twitter pour extraire les tweets. Le code de l’application est accessible en Open Source sur GitHub. Il est codé en Python.

A la prochaine, chers lecteurs Stay Tuned !!

10jan 2011

Cloud Computing : de quoi s’agit-il au juste ?

by aminedigirep ⋅ 4 Comments

Comme indiqué dans mon billet Freins culturels et techniques à l’émergence de l’entreprise 2.0, j’aborde le sujet Cloud Computing. Le Cloud Computing est un concept qui est en vogue et qui revient souvent dans mes lectures régulières de blogs ou de presses spécialisées. Le Cloud Computing est à mon sens un concept encore diffus dans l’esprit du grand public et pas assez explicite.

Le Cloud Computing trouve ses origines dans le calcul distribué où il est nécessaire de répartir la charge de calcul sur plusieurs processus (d’une même machine et diverses machines). L’idée sous-jacente est : je parallélise mes calculs et je retrouve le résultat attendu rapidement.

Voyons maintenant la définition donnée par la communauté Wikipedia :

Le Cloud computing est un concept de déportation sur des serveurs distants des traitements informatiques traditionnellement localisés sur le poste utilisateur. Bien que l’anglicisme Cloud computing soit largement utilisé en français, on rencontre également les francisations « informatique dans le nuage », « informatique en nuage », « informatique dématérialisée », ou encore « infonuagique ». […..]
Les utilisateurs ou les entreprises ne sont plus gérants de leurs serveurs informatiques mais peuvent ainsi accéder de manière évolutive à de nombreux services en ligne sans avoir à gérer l’infrastructure sous-jacente, souvent complexe. Les applications et les données ne se trouvent plus sur l’ordinateur local, mais – métaphoriquement parlant – dans un nuage (« cloud ») composé d’un certain nombre de serveurs distants interconnectés au moyen d’une excellente bande passante indispensable à la fluidité du système. L’accès au service se fait par une application standard facilement disponible, la plupart du temps un navigateur Web.

Cette définition est très vague et induit plusieurs définitions. Plus bas dans la page Wikipedia, les choses s’éclaircissent et on comprend que le concept de Cloud Computing, correspond concrètement à trois concepts/services distincts :

IAAS [Infrastructure as a Service] : ce service offre aux entreprises la possibilité d’héberger ou de louer l’infrastructure matérielle chez un prestataire tiers. Les services IAAS existent depuis plus de dix ans, toutefois réservés aux entreprises de parc informatique considérable. Grâce à l’avènement des géants du web (Google,Amazon, eBay), leur montée en expertise dans la gestion de gros entrepôts de données réparties et interconnectés à travers le globe et la multiplication des projets open source inhérents aux transports de données sur le web, le service IAAS évolue et l’offre d’hébergement se démocratise.

PAAS [Plateforme as a Service] : est le service le plus explicite et le plus répandu : les hébergeurs de site web sont des des fournisseurs de PAAS. En effet, ces prestataires mettent à disposition de leurs client à la fois des machines équipées de logiciels pour faire tourner leurs sites web : sites institutionnels, blogs, forums, sites e-commerce.

SAAS [Software as a Service] : est le service le plus récent et le plus connu du grand public (plateformes de blogs, Google docs). Le SAAS a émergé grâce à la démocratisation du web et le large panel de technologies de développement web. Le principe sous-jacent : j’accède à une application, à la quelle j’accédais via PAAS ou mon ordinateur, via un navigateur web.

Pour aller plus loin

Le Cloud Computing a de beaux jours devant lui tant les entreprises, quelque soit leur taille, cherche à externaliser leurs besoins en informatique (infrastructure, plateformes, applications) et se focaliser sur leur métier. Le marché du Cloud Computing est partagé aujourd’hui entre les géants du web (Amazon, Google, Microsoft, Yahoo) et les hébergeurs historiques du web (en France OVh, Gandi). Au milieu, se trouvent des acteurs qui cherchent à simplifier/étoffer les offres proposées et rendre le Cloud Computing plus accessible techniquement/financièrement aux entreprises (voir standing cloud, cloudant, couchone, dotcloud)

Pour compléter mon billet, je vous propose deux supports :

Le livre blanc « Cloud Computing » par Syntec Informatique, parue en Mai 2010
La présentation faite par un de mes collègues du module CNAM « Base de données Avancées » dont je suis auditeur et que je recommande à ceux qui s’intéressent aux NoSQL Databases.

Cloud Computing, Amazon EC2

View more presentations from Amine BENHAMZA.

14déc 2010

La recherche d’information à l’ère du web social

by aminedigirep ⋅ 6 Comments

La recherche d’information m’a toujours passionné : qu’il s’agisse de feuilleter des livres de disciplines variées, passer des heures sur les résultats des moteurs de recherches ou explorer les larges bases de données d’entreprises (informatique décisionnelle), j’ai toujours pris du plaisir surtout quand qu’il s’agit de prise de décision.

En effet, toute prise de décision est basée sur l’information dont on dispose en date et lieu. Dans le cas d’une décision d’achat: on pourra se baser sur notre expérience de consommateur, l’avis des personnes qui nous entourent, les médias institutionnels et les avis de consommateurs en ligne. Il faut noter que davantage d’internautes (moi même d’ailleurs) accordent de plus en plus du crédit aux avis de consommateurs. Tout l’enjeu de la recherche d’information est de trouver la « bonne information » dans un temps record.

La recherche d’information décortiquée

Dans l’ère du web social, pour moi, la Recherche d’information = « Recherche de documents » + « Recherche de conversations » + « Recherche d’entités/personnes »

Recherche de documents

Un document est toute ressource (texte, son, image, vidéo) disponible dans les sites institutionnels, pages web personnels, blogs et autres interfaces web. La communication d’information par le biais de documents correspond à un modèle de communication unidirectionnel : émetteur —> récepteur. A travers le document, l’auteur s’adresse à la foule sans que la foule puisse répondre. Le web social verra l’avènement des conversations où la communication d’information est bidirectionnelle : émetteur <—> récepteur, voire (n) émetteurs <–> (n) récepteurs

La collecte et indexation de documents disponibles en ligne a été le leitmotiv des premiers moteurs de recherche. D’ailleurs, Google est issu du projet Stanford digital library. La plupart des moteurs fonctionnent ainsi : collecte de documents (crawl), indexation et réponse aux requêtes des utilisateurs.

Le schéma ci-dessous est issu d’une excellente thèse doctorale réalisée en 2004 par Carlos Castillo sur la collecte d’informations, intitulée Effective Web Crawling, disponible en téléchargement libre. Pour en savoir plus, je vous recommande également le billet de Frédéric Martinet à ce sujet.

Recherche de conversations

Les conversations entre humains regorgent souvent d’informations qu’on retrouvera difficilement dans les documents. En cherchant sur un moteur de recherche de documents, il est difficile de trouver des avis sur les restaurants du quartier, le coiffeur ou le boucher du coin.

Comment alors trouver la ou les ‘bonnes conversations’ qui répondent à notre besoin d’information ? Généralement, la formulation de notre demande d’avis auprès de proches ou de collègues se fait en langage naturel (langage parlé). Aussi, notre acceptation de leurs réponses est basé sur notre intimité avec la personne qui apporte l’information et/ou son niveau de connaissance du sujet.

Dans notre ère du web social, notre cercle de connaissances est étendu aux personnes auxquelles nous sommes connectés en ligne, voir toutes les personnes dotées d’une identité numérique. Dans ce cas, à qui s’adresser pour avoir une réponse à nos questions ?

C’est le leitmotiv des moteurs de recherches sociaux précurseurs du domaine dont Aardvark. L’équipe de ce dernier a produit un article très intéressant à l’occasion du WWW 2010 où elle aborde son approche de la recherche de documents et de conversations : The library and The village paradigms

Traditionally, the basic paradigm in information retrieval has been the library. Indeed, the field of IR has roots in the library sciences, and Google itself came out of the Stanford Digital Library project. [….] In a village, knowledge dissemination is achieved socially — information is passed from person to person, and the retrieval task consists of finding the right person, rather than the right document, to answer your question.

[…] In a library, people use keywords to search, the knowledge base is created by a small number of content publishers before the questions are asked, and trust is based on authority. In a village, by contrast, people use natural language to ask questions, answers are generated in real-time by anyone in the community, and trust is based on intimacy. These properties have cascading effects — for example, real-time responses from socially proximal responders tend to elicit (and work well for) highly contextualized and subjective queries. For example, the query “Do you have any good babysitter recommendations in Palo Alto for my 6-year-old twins? I’m looking for somebody that won’t let them watch TV.” is better answered by a friend than the library. […]

The fact that the library and the village paradigms of knowledge acquisition complement one another nicely in the offline world suggests a broad opportunity on the web for social information retrieval.

Ci-dessous un aperçu de l’architecture applicative d’Aardvark, issu du même papier que j’ai référencé avant :

Recherche d’entités/personnes

Depuis sa création, le web a évolué d’un espace centré sur les documents vers un un web centré sur les individus et entités. Un article écrit par TechCrunch ou Mashable, sur une thématique donnée, « vaut » mieux qu’un article écrit par un magazine moins connu ou un blogueur lambda. La valeur de l’article étant mesurée en fonction de la source, le nombre de visites, commentaires, tweets, partage sur Facebook, Digg, Delicious….

Pour se retrouver dans le volume gigantesque des flux d’informations (documents + conversations), on s’appuiera davantage (nous individus et moteurs de recherche) sur la source de l’information. Chaque source (entité/personne) étant dotée d’une certaine notoriété, image en ligne et degré d’ « influence ».

Twitter suggère de suivre des personnes en proposant des thématiques (Actualités, Art, Mode & Design, Caritatif..). La même fonctionnalité est présente également dans certains réseaux sociaux, plateformes de blogs et bookmarks. La recherche de personnes se base majoritairement sur des tags et analyse du contenu (local au service).

L’avenir de la recherche de personnes est de disposer de services web capables de proposer une liste de personnes par thématique donnée, en se basant sur l’ensemble des informations disponibles en ligne. Peut être bien qu’un tel service existe, j’en ignore l’existence alors !

Quelques mots sur le futur

La recherche d’informations a encore de beaux jours devant elle, et des challenges à relever :

Recherche de documents : analyse du son – reconnaissance vocale – structure d’image/recherche d’image similaire
Recherche de conversations : un meilleur traitement du texte (requêtes en langage naturel, textes de conversations)
Recherche de Personnes : approche scientifique de la notion d’influence, cartographie automatique des réseaux de personnes (indépendamment des réseaux sociaux)

Là j’ai fini :). A vous de me dire : qu’est ce que vous en dites de la recherche d’information à l’ère du web social ?

Crédit image de garde : http://memsic.ccsd.cnrs.fr/docs/00/33/48/47/HTML/bAnnexes_isabellequillien/base_fichiers/image013.jpg

19oct 2010

Freins culturels et techniques à l’émergence de l’entreprise 2.0

by aminedigirep ⋅ 4 Comments

Dans un récent billet, Jeremiah Owyang consultant reconnu en Web Strategy, propose une catégorisation intéressante des applications sociales pour entreprises. Dans un premier temps, j’ai voulu traduire le billet de Jeremiah et rapprocher plus les lecteurs intéressés des applications sociales utiles à l’entreprise. Rapidement, j’ai changé d’avis et voulu pousser l’exercice plus loin pour étudier la faisabilité d’intégrer des applications sociales au sein de l’entreprise.

Toutes les entreprises ne sont pas au même niveau organisationnel et technique. Dotée ou non d’une véritable culture, d’une organisation spécifique et de moyens techniques, chaque entreprise réagit différemment aux évolutions commerciales, sociétales et techniques. Là où des entreprises françaises (grands groupes, PME) ont déjà anticipé l’avènement du web 2.0 (cas MMA), d’autres entreprises de l’hexagone sont encore hors jeu.

Quelles sont les raisons de ce déphasage ? Certainement pas les moyens financiers. A mon sens, les véritables raisons sont principalement culturelles et techniques.

Les marchés sont des conversations

Cette expression est la première thèse du manifeste des évidences dont la première version est apparue en 1999. L’avènement du web social rend encore cette expression plus vraie. Les personnes discutent de tout en ligne : impératifs professionnels, relations et intimités personnelles, loisirs, politique, etc.

Chaque entreprise doit intégrer cette donne dans sa relation avec son audience : elle s’adresse désormais à des humains en quête d’échange et de différenciation, et non à des classes homogènes composées de catégories socioprofessionnelles ou groupes démographiques.

Communiquer n’est pas collaborer

Aussi, l’intranet n’est pas une plateforme collaborative. A mon sens, je collabore quand je travaille avec une ou plusieurs personnes en vue de réaliser un ouvrage commun, indépendamment du rang hiérarchique. Une collaboration effective sous entend l’existence d’une culture d’intelligence collective. Je vous recommande le blog d’Olivier Zara et son bouquin, deux mines d’informations à ce sujet.

Il est nécessaire de se rappeler que le web a été créé pour permettre la collaboration et non la communication. Le chat et l’e-mail existaient avant le WWW. Tim Berners Lee et Robert Ca illiau ont réalisé le premier prototype du WWW afin de faciliter la collaboration des scientifiques du CERN.

Travailler en réseau

Le travail en réseau est l’un des ingrédients de la collaboration effective. Travailler en réseau repose sur l’échange et la libre circulation de l’information au sein de la structure, pour s’affranchir du schéma archaïque de diffusion Top-Down et Bottom-Up. Ci-dessous un schéma de Didier Heiderich sur le fonctionnement en réseau où la direction n’a plus de valeur hiérarchique : son rôle est de déterminer la stratégie et fournir le sens, ce qui constitue une fonction spécialisée au même titre qu’une autre compétence. (page 6 du pdf)

Méconnaissance de la culture Open Source

Sans un travail en réseau et une collaboration effective, on n’aurait jamais eu les logiciels open source et certainement aucun des grands services du web (Google, Facebook, Yahoo, Twitter, WordPress, etc.). Les logiciels Open Source sont les leviers de l’innovation continue du web et de l’informatique. Ils sont gratuits et couvrent tous les domaines du logiciel. Et malgré cela, ils sont très faiblement adoptés au sein des entreprises.

Un paramètre qui peut jouer en défaveur des logiciels Open Source : le manque de formation. Argument qui est avancé par les produits commerciaux.

Toutefois, si la volonté est réelle d’adopter ce type de logiciel, prendre le temps de se former et former les personnes par itération est possible et très bénéfique pour l’esprit de l’entreprise. Autre solution, faire appel aux entreprises qui se sont positionnés sur ce secteur.

Se familiariser avec les logiciels Open Source, permettra à l’entreprise :

d’une part de se familiariser avec l’esprit du web et,
d’autre part de développer l’aptitude à intégrer de manière souple les évolutions techniques qui surviennent chaque jour.

Bases De Données Relationnel vs Bases De Données XML

Le stockage des données est l’un des enjeux du web. Le volume de données est immense et ne cessera de croître. Les géants du web tel Google ou Amazon, pour répondre à ce défi, ont inventé leurs propres systèmes de stockage et partagé leurs connaissances avec les communautés en ligne. Ceci a donné naissance à diverses Base De Données (BDD) Open Source utilisées aujourd’hui par les entreprises montantes du web: Twitter, Zynga, etc. Ces nouvelles BDD se basent globalement sur des standards XML ou JSON.

Intégrer le Web 2.0 au sein de l’entreprise suppose l’intégration de ces nouvelles BDD aux bases de données existantes. La quasi majorité des entreprises utilisent les bases de données relationnelles (vue matricielle des données). Ces deux types bases de données sont très hétérogènes.

Les entreprises auront un choix technique à faire :

gérer deux types de BDD et fusionner les données au moment où on en a besoin (fréquence mensuelle ou hebdomadaire)
mener des projets en amont pour se baser uniquement sur les nouvelles générations de BDD

==> Qu’est ce que vous en dites de ces 5 freins ? Il y’a certainement d’autres freins auxquels je n’ai pensé.

Dans un prochain billet, j’aborderai le Cloud Computing pour mieux vulgariser ce concept

Crédits photo de garde : http://www.flickr.com/photos/satoboy/4367984862/in/photostream/

04oct 2010

Storify : outil intuitif pour relater les faits en texte, images et vidéos

by aminedigirep ⋅ Leave a Comment

Voici une application qui va intéresser beaucoup d’entre vous. Storify est un outil simple et utile pour un mashup rapide de médias : articles de presse, billets de blogs, tweets, pages facebook, vidéos et images. L’idée de base : donner la possibilité à chacun de relater sa version des faits en composant librement des médias variés. On peut imaginer plusieurs utilisations : web reportage, bookmark, personal branding, CV en ligne… les applications sont multiples et variées.

Voyons comment faire ?

Pour composer l’histoire, 8 sources et moyens

Twitter : diverses options sont proposées pour incorporer des tweets (Timeline, Search, Fav Tweets…)
Facebook : incorporations de pages par la recherche avec mots clés.
Flickr : recherche par mots clés avec une option Creative Commons.
Youtube : diverses options pour ajouter des vidéos
Google : ajout des résultats de recherches Google par mots clés (Web, News et images)
Fils RSS : ajout de contenu quelconque depuis un fils RSS
Contenu encapsulé : un moyen rapide, grâce au service embed.ly, pour ajouter d’autres médias
Bouton « Storify This » : positionné au niveau de la barre de navigation, ce bouton permet d’ajouter du contenu à votre histoire sans passer par le site Storify.

Une fois construite, l’histoire ressemblera à ceci:

Cerise sur le gâteau, vous pourrez diffuser votre histoire sur toute plateforme sociale qui supporte Javascript, à commencer par votre blog.

Qui est derrière cette application ?

Storify a été implémentée, développée et supportée par une équipe multidisciplinaire riche d’expériences variées autres que celle du web.

Storify or Not Storify ? That’s my Question

20sept 2010

5 outils pratiques pour la veille au quotidien

by aminedigirep ⋅ 7 Comments

Ce billet s’adresse aux personnes qui font de la veille quotidienne à l’aide des outils gratuits. Ils trouveront dans les outils listés un bon moyen pour optimiser leurs activités quotidiennes de recherche d’information. Les quatre premiers sont des extensions Firefox, le cinquième est une application accessible en ligne.

Veillez bien

	NaviCrawler : à mi chemin entre un crawler automatique et une navigation manuelle, cet outil est l’idéal pour constituer un corpus thématique. Doté d’options intéressantes, NaviCrawler permet une exploration rapide des pages web et la constitution de listes d’URLS. Sa fonction d’export permet de visualiser sous forme de graphe (dans Gephi par exemple) les pages retenues à l’issue de l’exploration.
	TimmyMiner : est le complément de NaviCrawler. Il effectue l’analyse textuelle de la page chargée pour indiquer la langue, les expressions récurrentes et leur nombre d’occurrence. A fur et à mesure de la constitution du corpus, TimmyMiner additionnera les expressions et les nombres d’occurrence. On pourra ainsi constituer, à l’aide de cet outil et NaviCrawler des corpus enrichis d’index personnels d’expressions. Bémol : TimmyMiner n’a pas été adapté à Firefox 3.6.
	Yolink : permet de repérer rapidement l’information recherchée. Le slogan de l’outil « Oubliez CTRL + F » :). En effet, Yolink (cadre à gauche du navigateur) repère dans les résultats de recherche, les fragments de texte qui contiennent des mots clés et permet d’y accéder directement. Idéal pour la recherche de documents.
	Cooloris : outil très pratique pour les recherches d’images et de vidéos sur Google. Affichés sous forme de mur, les résultats sont consultés rapidement dans une vue unique.
	TouchGraph : outil d’exploration des liens entre les ressources web. Basé sur Java (pré-requis), cet outil permet de révéler rapidement pour un site donné les liens sortants avec les autres sites. Très utile pour la veille concurrentielle.