W2C2011

Si vous êtes un passionné du Web et que vous aimez les rencontres et les échanges autour de vos thématiques favorites, ne laissez pas filer cet événement : le Web Deux Connect 2011 (5ème édition). Il se tiendra le 21 et le 22 Octobre à Eurosites George V.

J’y serai avec Amal toute la journée du Samedi 22/10 et nous serions très heureux de vous croiser et d’échanger avec vous.

Dores et déjà le programme s’annonce intéressant, un aperçu de la journée du samedi, avec un moment fort « Connecting Party » :

9h30 : Accueil
10h35 – 11h30 : Think About
11h50 – 12h45 : Think About + Création de Mastermind Groups
12h45 : Déjeuner Bio & Equitable
14h30 – 16h00 : Think About + Workshop
16h30 – 18h00 : 1h30 de Connecting Party
18h30 : Annonces des Gagnants aux Jeux
19h : Fin de la journée

La Connecting Party sera le contexte idéal pour échanger ses contacts avec un maximum d’acteurs du web et développer son réseau. Voici la liste des participants à cette Party : http://www.webdeux.info/connect/link-party-w2c11.

Au plaisir de vous croiser Samedi.

Crédits image de garde: WebDeuxConnect

decision_prestataire

J’ai entrepris d’écrire ce billet suite au billet de Camille d’Alloing : La réputation n’a pas de prix… Sauf pour votre prestataire. J’y ai réagi par rapport aux critères de choix d’un prestataire, en particulier le nom.

Pas besoin de vous faire un topo, le monde se divise en deux catégories : les commanditaires et les fournisseurs. Parmi les fournisseurs, on retrouve les prestataires de services et les vendeurs de produits.

Depuis 7 ans, je suis du côté des prestataires de services en informatique et depuis 2 ans du côté des prestataires de services en e-réputation en binôme avec @amalbel. Pour vous dire, que je connais bien les modalités de sélection et comment se distinguer pour sortir du lot ;)

Si je me place du côté client, j’appliquerai les principes suivants pour sélectionner un prestataire :

  • je m’emploie à bien cerner mon besoin, à définir mes objectifs et je commence à me projeter pour savoir comment je pourrai y arriver
  • je consulte mon cercle (collègues de service, collègues d’entreprise, collègues d’école….) pour me renseigner sur des projets semblables au mien et quels sont les prestataires qui les réalisent. Je consulte éventuellement des prestataires avec j’ai travaillé dans le passé
  • je lance un appel d’offre où je précise les modalités de réponses: format de réponse, éléments à faire figurer
  • Lors des présentations, je me focaliserai sur les projets réalisés, les délais de réalisation et les moyens mis en œuvre
  • Je sélectionne le prestataire qui en fonction des projets antérieurs, du prix et de mon ressenti à pouvoir travailler avec ses employés
  • En particulier pour l’e-réputation, avant de me décider, je m’appuierai également sur la dynamique du prestataire dans le web social, sa présence dans les divers canaux, ses partages, son blog, contributions ou réalisations de livres collaboratifs.

Le web social n’est pas une science exacte, quelque soit ce prestataire en e-réputation, il est obligé d’être sur le web social pour interagir avec les diverses communautés et continuer en permanence à échanger, apprendre et acquérir de nouvelles connaissances et compétences. Le web social est dynamique et le prestataire en e-réputation se doit d’accompagner et vivre cette dynamique.

Toujours si je me place du côté client, j’éviterai les erreurs suivantes lors du choix du prestataire:

  • je me base sur le nom de la société, un nom qui sonne joli ou mielleux ;)
  • je me base sur les références, les prestataires mettent souvent en avant les grands comptes
  • je me focalise sur le prix

Une fois le choix du prestataire fait, vous pourrez toujours commencer par une petite commande et voir comme vous arrivez à travailler avec votre nouveau partenaire. Et oui, un prestataire est aussi un partenaire qui doit être capable de prendre en compte vos spécificités, vos modes de travail, vos préoccupations et vos attentes. Mon primeur, par exemple, est mon fournisseur de fruits et légumes, il est également mon partenaire bonne santé et goûts.

A bon entendeur :)

Crédits image de garde: http://www.samsic.fr/img/groupe/recrutement.gif

10ReasonsWhyIWantToMarryAFemaleProgrammer4

Est-ce que vous vous intéressez aux femmes qui font du développement logiciel ? Celles capables de concevoir et implémenter des programmes informatiques ?

En lisant ce billet, vous changerez d’avis sur les femmes hackers :)

1. Programmation Orientée Objet (POO)

En POO,  les objets ont accès aux attributs et aux méthodes de n’importe quelle classe. Votre femme est l’Objet, votre maison est la classe, les attributs sont les membres de votre famille et les méthodes sont les corvées.

2. Raisonnement logique

Les développeurs pensent logiquement. Votre épouse sera votre guide en toute situation délicate ou circonstance difficile. Elle vous trouvera la solution optimale pour votre problème, mieux que quiconque. Les développeurs sont très pragmatiques.

3. Elles connaissent très bien les “Pointeurs”

Un pointeur est une variable qui enregistre l’adresse d’une autre variable de même type. Votre épouse vous portera toujours ainsi que vos enfants dans son coeur, de même qu’un pointeur porte en lui l’adresse d’une autre variable. Ainsi, vous avez gagné son coeur.

4. Si elle fait du développement web, vous êtes le roi du monde

Tous les bloggeurs ne sont pas des développeurs. Toutefois, chaque développeur pourra gérer et administrer un blog. Votre épouse pourra vous développer un nouveau thème à votre goût et saura mieux le faire que vous.

Elle pourra aussi développer un nouveau plugin et sans avoir son accord, votre nom sera mentionné.

5. Prise de décision ( Test SI SINON )

Votre épouse peut aisément prendre une décision et établir un plan d’actions. Le cas échéant, si un imprévu survient, elle a déjà prévu un autre plan. Elle raisonne ainsi : Si condition1 à plan1, Sinon Condition 2 à Plan 2. Votre épouse est douée en tout genre.

Elle peut facilement adapter son humeur à la situation. Elle a d’ores et déjà pensé à toutes les situations.

6. Chaque programme du langage C nécessite la méthode main()

Dans la vraie vie, la méthode « main » c’est vous et votre épouse vous demandera pour chaque chose.  Vous jouez ainsi un rôle important pour son succès (exécution de son code).

Il n’est pas possible, dans un programme C, d’utiliser plus d’une méthode « main ». Main est la méthode où le programme débute et où il prend fin. Vous êtes son espace de concrétisation.

7. Ponctualité

Les projets informatiques sont toujours jalonnés par une date de livraison qu’il ne faut pas dépasser. Les développeurs sont habitués à respecter les délais.

La ponctualité est un point fort de votre épouse.

8. Un amour infini, à condition ….

En programmation, votre épouse sait gérer les boucles infinies, et à les arrêter au moment opportun.

Pareil dans la vraie vie, elle saura communiquer son amour infini et vous chérir. Elle saura aussi suspendre son affection quand elle sent vous mijotez quelque chose derrière son dos.

9. Sur tous les fronts

Plusieurs développeurs codent en Java, .Net ou autre, mais savent également formuler des requêtes SQL optimisées. Si elle est parmi ces programmeurs, alors vous êtes chanceux.

Elle connait tout de vous : votre bon et votre mauvais côté, vos forces et vos faiblesses, vos capacités et vos limites. Ainsi, elle saura se débrouiller pour éviter toute dispute.

Ce billet ne vise ni à dénigrer, ni à heurter quiconque. Tout ce qui a été dit sur les femmes qui font du développement logiciel, est aussi valable pour les hommes qui codent. D’ailleurs, j’en fais partie et ma chère épouse pourra en témoigner ;)

Librement traduit depuis l’article original en anglais : 10 Reasons Why Marry A Female Programmer

schema_cycle_info_politique

A l’approche des élections présidentielles, tous les candidats vont certainement tabler sur le web social pour s’en servir comme canal de communication, de propagande voire de viralité.

Peut-on pour autant parler d’e-réputation pour ces acteurs politiques ? Les personnes qui se présentent ou se présenteront aux prochaines élections présidentielles, seront toutes plus ou moins connues du grand public.

Les médias de masse (TV, Presse, Radio) relayeront les détails sur leurs campagnes, leurs programmes ainsi que leurs moindres égarements de conduite. Les internautes via les médias sociaux relayeront et discuteront majoritairement de ces mêmes sujets. Par ailleurs, les contenus produits par les candidats, diffusés sur les médias sociaux et qui seront fortement plébiscités par les internautes, seront relayés par les médias de masse.

Nous assisterons vraisemblablement dès la rentrée, à des cycles de l’information, comme spécifié dans le schéma ci-dessous :

Ainsi, l’e-réputation des candidats aux élections présidentielles est quasiment semblable à la réputation de ces candidats sur les médias de masse.

Le monde (politique) se divise en deux catégories

Tous les acteurs de la vie politique ne sont pas voués à se présenter aux élections présidentielles. La plupart d’ailleurs, n’ont pas une forte exposition médiatique.

Les acteurs politiques se divisent en deux catégories :

  1. les plus exposées médiatiquement, qui sont connus d’une bonne partie du grand public grâce aux médias de masse. Leur e-réputation est quasiment semblable à leur réputation sur les médias de masse
  2. les moins exposés, très peu cités dans les médias de masse nationaux et potentiellement plus cités dans les médias de masse régionaux. Ceux-là auront la plupart des cas, une e-réputation différente de leur réputation sur les médias de masse nationale ou régionale.

Tout est une question de volumétrie

Les ressources disponibles en ligne qui relayent les activités d’un acteur politique médiatisé sont suffisamment abondantes pour estomper un contenu « original » généré par un internaute ou une conversation « originale » tenue par des internautes. Peu importe la tonalité du propos, l’originalité relève du sujet du contenu ou de la conversation qui ne reprend pas l’actualité.

Cet effet est davantage accentué par les moteurs de recherche qui privilégient l’abondance à l’originalité. Le contenu original, à moins d’être fortement relayé (probabilité très minime), sera noyé dans l’abondance.

A l’opposé, un acteur politique moins exposé dans les médias de masse sera potentiellement plus exposé dans les médias sociaux ; par conséquent pas à l’abri d’un contenu ou d’une conversation qui porte atteinte à sa réputation.

Les acteurs politiques les plus aguerris ont d’ores et déjà une présence en ligne, produisent régulièrement du contenu voire animent des communautés. L’e-réputation de l’homme politique, 2ème catégorie, se gère et se mesure à l’instar de l’e-réputation d’une marque. Le processus est débuté par un audit d’image, suivi d’une définition et mise en œuvre d’une stratégie de présence et d’engagement sur les médias sociaux, couplé à un suivi régulier de l’image en ligne.

Et si on écoutait ce que disent les citoyens

Les marques ayant intégré la culture du web social ont compris tout l’intérêt d’être à l’écoute des conversations des internautes pour préserver leur image en ligne, ajuster leurs activités marketing et adapter leurs produits aux attentes des consommateurs. Est-il si difficile de le faire pour la politique ?

Aujourd’hui, les partis et les acteurs politiques à l’instar des marques commerciales, usent des  techniques de marketing et d’influence pour promouvoir leur image et drainer le maximum de lecteurs et donateurs. Ils pourraient s’améliorer en écoutant les conversations des internautes, qui permettront : d’avoir le pouls de popularité, de révéler les forces et les faiblesses et surtout de faire l’inventaire des attentes

Le monitoring des médias sociaux en politique c’est du Gagnant/Gagnant : autant pour les acteurs politiques que pour les citoyens

A méditer pour la rentrée ;)

Comment le monitoring des médias sociaux dans le domaine politique pourrait révéler les intentions de votes ?

images

Il serait trop beau si on pouvait nettoyer les données web à notre guise, surtout celles qui dérangent. J’entends par nettoyer: supprimer toute trace en ligne. Plus possible d’accéder à la ressource qui dérange ni directement( erreur 404) ni par moteur de recherche.

Hélas, la majorité des entreprises qui surfent sur cette tendance du marché de la gestion de l’image numérique, et qui proposent des prestations pour « nettoyage les données du net » oublient juste de mentionner sur leurs sites que des fois il n’est pas possible de faire disparaître les données qui dérangent.

Pour les personnes/structures qui ont l’intention de s’adresser à ce genre d’entreprises de « nettoyage de données du net », sachez qu’il faut distinguer deux sortes d’obligations de prestations :

  • Obligation de moyens : l’entreprise de nettoyage s’engage à mettre œuvre les moyens nécessaires pour faire disparaître les données qui dérangent. Toutefois, si l’objectif n’est pas atteint, les frais ne sont pas remboursés.
  • Obligation de résultats : l’entreprise s’engage également à mettre en œuvre les moyens nécessaires pour faire disparaître les données qui dérangent. Si l’objectif n’est pas atteint, l’entreprise rembourse les frais avancés par le client.

Comment nettoyer les données du net?
Le nettoyage de données se décline en deux actions complémentaires:

  1. Nettoyage des données à la source : par la force de la loi, il est possible de nettoyer la ressource qui dérange. Pour ce faire, la CNIL met à disposition un courrier type à adresser au webmaster qui gère le site qui héberge les données qui dérangent.
  2. Nettoyage des données dans les moteurs de recherche : une fois la ressource supprimée, il faudra s’adresser aux moteurs de recherches (ex : Google) pour demander de ne plus indexer la dite ressource.

Quoi faire s’il n’est pas possible de nettoyer les données du net?

Si par la force de la loi, il n’est pas possible de supprimer la ressource qui dérange, ou bien malgré les sollicitations, le propriétaire du site ne tient pas à supprimer la mention négative, il est possible de minimiser l’impact de cette mention négative afin de préserver votre réputation en ligne.

En effet, l’accès au web est généralement réalisé via les moteurs de recherche. Si la mention négative est présente à la 5ème /10ème page des moteurs de recherche (50ème/100ème positions dans les résultats), alors il y a peu de chances que des gens tombent sur la mention négative.

Dans le cas contraire, il faudra s’en préoccuper et reléguer la mention négative aux 50ème/100ème positions dans les résultats des moteurs de recherches. Pour ce faire : création de contenu.

La création de contenu est une démarche à la fois complexe et volontariste

  • Complexe : car il faudra nécessairement créer divers médias sociaux et trouver le moyen de lier ces médias afin d’influencer le classement des moteurs de recherches. Selon le secteur d’activité, l’objet de la mention négative, certains médias seront plus appropriés que d’autres.
  • Volontariste : parce que la création de contenu en vue d’occulter des données qui dérangent est une démarche qui s’inscrit dans le temps. Il faut compter des semaines pour voir son contenu indexé convenablement. Aussi, la qualité du contenu est primordiale. Un contenu qui n’est pas relayé sera difficilement positionné par les moteurs de recherche dans les premiers résultats. A éviter : les copier/coller (duplication du contenu) et l’insertion des mots clés à tout va.

Mot de la fin

Le meilleur moyen pour éviter les tracas du « nettoyage des données sur le net » est la prévention : contrôler les données qu’on diffuse et veiller sur les données diffusées à notre sujet.
Pour certaines professions, la prévention passera par une présence effective et une diffusion de contenu régulière et soignée sur internet.
C’est tout pour moi, à vous la parole :-)

twitter_bird_sick2

Malheureusement ce billet ne vous donnera pas le nombre d’utilisateurs de Twitter en France. Et sachez qu’il n’y aucune entité officielle « honnête », à mon humble connaissance, capable de donner ce chiffre précisément, Twitter Inc.  Himself. Amal a sollicité Twitter France et Twitter US pour obtenir ce chiffre sans aucune réponse.

Pour obtenir le chiffre exact, à mon sens, il faudra mettre autour de la table :

Option 1 :

  • Les fournisseurs d’accès à l’internet qui sont capables d’analyser les logs de connexion aux sites web et peuvent mesurer le nombre d’internautes qui accèdent à Twitter.com ou à un service client Twitter (ex: Hootsuite, Seesmic) en HTTPS
  • Les fournisseurs de forfaits téléphoniques qui sont capables d’analyser les logs d’utilisation des services mobiles et peuvent mesurer le nombre d’internautes qui accèdent à Twitter.com ou un service client Twitter (Hootsuite, Seesmic) en mode sécurisé depuis leur téléphone
  • Twitter Inc. qui dispose du nombre de profil qui ont déclaré vivre en France (ou Fuseau Horaire) ou qui ont activé la fonctionnalité de géomarquage. Donc, un utilisateur résidant en France, qui n’a pas déclaré vivre en France ou n’a pas activé la fonctionnalité géolocalisation, n’est pas reconnu comme utilisateur de Twitter en France.

Option 2 : réunir l’ensemble des clients Twitter, Twitter.com y compris, et disposer des logs de connexion ainsi que du nombre d’utilisateurs qui ont déclaré un lieu en France (ou le fuseau horaire Paris) ou ont activé la fonctionnalité de géomarquage.

Ainsi, en croisant les données fournies, autant dans l’option 1 ou 2, nous pourrions obtenir le chiffre exact. Exercice assez difficile, voir irréalisable surtout que le nombre d’utilisateurs évolue chaque heure. Il faudrait alors mettre en place un compteur temps réel.

L’exception parisienne

Apparemment, il y a une agence parisienne Semiocost capable de nous livrer le chiffre exact, dixit : « Aujourd’hui, sur les 210 millions d’utilisateurs de Twitter, 2 400 000 sont en France et près de 9% ont protégé leur compte« . L’ annonce est avant tout paradoxale : comment peut-on donner le nombre d’utilisateurs en France à l’unité près, 2 400 000 et pas un de plus, et donner une approximation pour la proportion des comptes protégés. Les gens savent bien faire la différence entre 8,9%, 9% et 9,1%, alors soyons précis jusqu’au bout.

Quid de la méthodologie qui permet de donner exactement le nombre d’utilisateurs ? Je cite l’agence : « L’étude a porté sur un échantillon de 52 millions de profils Twitter créés jusqu’au 1er mars 2011 – soit environ 24% de tous les profils. Semiocast a mobilisé ses outils sémantiques multilingues pour identifier le lieu déclaré par les utilisateurs dans leur profil Twitter. Au total, 1,1% de tous les profils géo-localisés sont en France. Dans le classement des pays par nombre d’utilisateurs de Twitter, la France se place en 17ème position, loin derrière les États-Unis, le Japon et le Brésil. Le premier pays européen est le Royaume-Uni, 4ème mondial, avec 10 500 000 utilisateurs«  ==> L’échantillon est très représentatif pour une telle étude, toutefois la méthode de répartition des comptes par pays est insuffisante pour obtenir l’exactitude du chiffres.

Cette méthode ne permet pas de comptabiliser les utilisateurs qui utilisent Twitter en France et qui n’ont pas déclaré leur ville ou pays et n’ont pas activé l’option de géomarquage . Combien sont-ils ? Je ne sais pas. Ce que je sais :  le chiffre exact 2 400 000 est un leurre et la méthode de mesure est à modifier !!

Peut être, il aurait fallu au minimum comptabiliser  les utilisateurs qui ont un Fuseau Horaire = « Paris ».

Quel que soit le chiffre ou la méthode utilisée, le chiffre ne peut être qu’approximatif.

J’aurai aimé poster ma réaction sur la page de l’étude et engager un échange constructif avec Semiocost et autres personnes. Pas moyen de laisser un mot. J’ai sollicité l’entreprise via Twitter. Aucune réponse.

Je ne peux que douter des prestations d’une entreprise qui travaille dans le web social, et qui ignore volontairement ou non les règles de transparence et de collaboration.

Personnellement, je n’accorde aucun crédit à cette étude et je plains les sites et blogs qui ont relayé l’information. Cet épisode me rappelle la vidéo de « Jean Sarkozy/Epad » qui a circulé dans tous les JT sans qu’aucun ne vérifie la teneur des propos dans la vidéo.

Soif aveugle des chiffres

Pourquoi un tel engouement à demander/consommer des chiffres du web ?  Pourquoi une telle course à éditer des chiffres et des mesures ?

Pour la première question, la raison est purement marketing. Plus il y a d’utilisateurs, plus les phénomènes sociaux s’amplifient plus il y a moyen de gagner de nouveaux clients. Et vous trouverez les chiffres sur tous les slides et présentations.

Pour la deuxième question, la raison est purement marketing également. Une entreprise qui assure calculer précisément des chiffres du web et affichent ces chiffres à l’unité près, cherche à appâter de nouveaux clients.

Discours ouvert

J’invite Semiocast à réagir à mon billet et répondre à mes arguments. Toute autre personne est bien évidemment invitée à réagir à ce sujet ou sur un sujet connexe.

Ce blog a toujours été un espace ouvert d’expressions.

Technos

Ce billet est le récit de mon humble expérience de 12 mois de développement web (en soirée et weekend) que j’ai souhaitée partager avec les lecteurs fidèles ou itinérants du blog.

Je fais du code (écrire, relire, notifier, pair programming) depuis 2001 : dans un premier temps en école d’ingénieurs et ensuite en SSII. Une fois dans le monde professionnel (depuis 2004), j’ai travaillé sur des environnements propriétaires (Oracle e-business, Business Objects, DateStage….) loin des outils open source et des pratiques/communautés de Hack.

Témoin des mutations (technique puis sociale) que connait le web depuis quelques années, j’ai commencé depuis mars/avril 2009 à scruter quotidiennement les tendances et comportements en ligne, et expérimenter les innombrables applications qui sont éditées chaque jour. La suite, peut être que vous la connaissez, le lancement avec Amal de l‘ancienne version de ce blog pour coucher mes réflexions.

Gestion de contenu

Étant animé par l’action, je ne pouvais pas rester spectateur/critique de ce qui se passe. J’ai commencé par le plus simple : expérimenter WordPress et Drupal pour réaliser des applications de gestion de contenu (WordPress : ce blog et le site d’Amal, Drupal : application d’accès privé de bookmark et brainstorming).  Ces deux CMS sont accessibles techniquement même sans base technique. Aussi, il y a le site des associations  WordPress Francophone et Drupal France qui cumulent un contenu considérable et intéressant sur les deux CMS. Important aussi:  les forums de ces deux communautés. Si vous avez des questions, n’hésitez pas ! Il y aura toujours une personne bien disponible pour vous répondre précisément ou vous donner des pistes.

Pour réaliser des applications de gestion contenu Drupal, WordPress ainsi que Joomla sont les références. Par contre, dès qu’on rentre dans des problématiques poussées dans le développement web (web monitoring, stockage de différents types de médias, architectures distribuées, manipulation des graphes sociaux), ces applications présentent des limites. On retrouve par ailleurs, deux applications basées sur Drupal de web monitoring : Tattler et YouSeeMii


Langages de développement

Pour choisir la bonne technologie pour réaliser des applications web pérennes et robustes, je me suis intéressé à 3 géants du web : Facebook, Twitter et Google. Ils ont été développés à l’origine, respectivement en Python , PHP et Ruby on Rails. Ils ont évolué depuis, du point de vue technique, pour utiliser des technologies comme Java ou Scala et s’appuyer sur des architectures distribuées tel Hadoop. Côté base de données, ils s’appuient actuellement en grande partie sur des NoSQL. D’ailleurs, je recommande aux personnes intéressées le cours du CNAM : Bases de données avancées.

Encouragé par les bons échos que j’ai eu sur le langage Ruby et le fait que Diaspora* soit développé avec, j’ai commencé mon apprentissage du langage (entre temps j’ai commencé à utiliser Ubuntu au lieu de Windows). Là encore, je trouve en français une association, des blogs de développeurs, des forums qui traitent du sujet. Les ressources disponibles et les interactions entre les personnes m’ont permis de rapidement apprendre le langage et prendre plaisir à développer avec.

Il a fallu ensuite me trouver un projet autant pour bien pratiquer à coder que pour valider le module CNAM. Pour cela, j’ai opté pour l’étude des interactions sur Twitter : Identification des leaders d’opinion en politique, dans l’écosystème Twitter.

Bases de données

La quasi majorité des sites web est basée sur la technologie LAMP : Linux, Apache (serveur web), MySQL (base de données) et PHP. C’est une technologie bien rodée et disponible chez l’ensemble des hébergeurs. Avec l’évolution des usages du web et l’augmentation exponentielle du volume de données en ligne, les bases Mysql ont démontré beaucoup de limites et n’étaient pas adaptées aux nouveaux besoins du web. Facebook a développé son propre système de base de données (Cassandra), Idem pour Amazon (SimpleDB) et Twitter (FlockDB : BDD de graphes). Une pléade de BDD NoSQL ont vu le jour ailleurs.

Pour  mon projet d’étude des interactions sur Twitter, j’ai opté pour Neo4j qui est une base de données de graphes en usage depuis quelques années et suffisamment documentée pour l’utiliser via Ruby. Les premiers pas étaient difficiles mais à l’aide d’Andreas Ronge via le mailing-list, j’ai pu rapidement m’approprier les rudiments et expérimenter Neo4j avec Rails tout en expérimentant l’API Twitter. Là aussi, j’ai pu m’appuyer sur les communautés Twitter-Dev et Twitter-Ruby pour répondre à mes questionnements.

Neo4j était bien pour stocker un graphe mais quid des tweets. Pour cela, il me fallait une BDD de documents. En faisant rapidement quelques recherches, j’ai eu à choisir entre MongoDB et CouchDB. J’ai opté pour la deuxième : forte communauté (réponses déjà disponibles ou  rapides à mes questions), accessible via navigateur, assez intuitive, combine à la fois BDD et Serveur Web et adapté aux réseaux sociaux. Plusieurs applications Twitter et Facebook s’appuient dessus.

Web Crawling

Pour étudier les interactions en ligne et analyser les phénomènes du web, il est nécessaire de passer par la phase : Collecte de données. Deux moyens complémentaires pour ce faire : Collecte par API (Twitter, Facebook, Youtube…) et Crawl de ressources en ligne (blogs, forums, wikis…). Si les API sont faciles d’utilisation et accessibles via différents langages de programmation, le Crawl est loin d’être un exercice évident. Le Crawl requiert des ressources matérielles et humaines et aussi beaucoup d’expérimentations en amont des projets. Pour vous faire une bonne idée, je vous suggère de consulter la thèse suivante : Effective Web Crawling qui a donné lieu à un Crawler Open Source (WIRE).

J’ai expérimenté WIRE pour quelques jours. Il est intéressant mais développé en C (langage que je fuis ;)) et ne dispose pas d’une réelle communauté. J’ai cherché à expérimenter d’autres crawlers open sources et j’ai opté pour Nutch. C’est un projet Apache qui dispose d’une forte communauté (française aussi) et largement documentée. J’ai expérimenté Nutch. Il est très intéressant et doté d’un système de plugins qui permet d’ajouter ou de désactiver des fonctionnalités. Je n’ai pas encore opéré un large crawl mais de ce que j’ai lu, il est capable d’emmagasiner des millions, voir des milliards de pages (via une architecture distribuée Hadoop).


Web Design

La conception d’interfaces graphiques n’est pas mon point fort. D’ailleurs, je n’ai pas encore vraiment réalisé une interface de bout en bout. Je pense expérimenter dans l’avenir HTML5, Sproutcore et Processing.js pour me faire une idée de ce qui est possible à développer côté navigateur.

La communauté, c’est important

J’ai expérimenté plus d’outils et de technologies que ce que j’ai présentés dans ce billet. A chaque fois, la taille de la communauté a pesé sur mes choix. En effet, au sein d’une communauté, on peut s’attendre à trouver des réponses déjà faites à ces questions ou bien à poser des questions et obtenir des réponses dans des délais corrects. Le facteur temps est important pour moi, vu que je fais du développement durant mon temps libre et j’ai envie d’expérimenter pas mal de choses.

J’ai beaucoup apprécié échanger avec des personnes que je ne connaissais pas et qui se sont proposées pour me donner un coup de main. J’ai aussi à mon tour pris du plaisir à aider d’autres personnes et les guider dans leurs premiers pas. Les technologies Open Source se développent grâce à la bonne volonté des personnes et les interactions au sein des communautés. J’apprends beaucoup en lisant chaque jour les échanges qui ont lieu dans les mailing-lists et apportant quand c’est possible mon humble contribution.

Il n’est pas évident de combiner vie professionnelle, vie personnelle et développement web. Toutefois, l’exploration du web est très stimulante et enrichissante. Je continue alors mon aventure du Hack et du code. Bientôt, je commencerai à partager mon code sous Github.