pluxml et ping pour référencement rapide des articles

zetrader · janvier 2010

Bonjour à tous, quand on fait un nouvel article sur pluxml, aucun moteur de recherche n'est pingué par défaut (à moins que je ne me trompe mais si c'est le cas le ping ne semble pas efficace dans mon cas), donc chaque article met ainsi pas mal de temps à être référencé, j'ai essayé pingomatic après chaque article mais ça ne semble pas accélérer le référencement d'un article.
C'est bien la page d'accueil (pingomatic demande de mettre la homepage) qu'il faut mettre à chaque fois ? Ce n'est pas l'url du nouvel article qu'il faut mettre ?
Par exemple quand on fait un article sur un blog overblog ou blogspirit (ou autre), 20 minutes + tard environ, on peut retrouver l'url dans google, ça n'est pas le cas avec pluxml, j'imagine que la différence tient dans un ping efficace, mais comment pinguer efficacement pour un blog pluxml ?
Existe-t'il des plugins pour que le ping soit automatique à chaque nouvel article pour prévenir les moteurs de recherche qu'il y a un nouveau contenu ? De sorte à ce que les nouveaux articles soient rapidement référencés.
La seule chose que j'ai trouvé qui permet de référencer un peu + rapidement un nouvel article (environ sous 24 heures) c'est de faire un article (article qui lui est référencé sous les 15/20 mn par google) depuis un blog overblog vers le nouvel article pluxml, pas très optimal.
Parce qu'avec pingomatic tout seul, le lendemain ça n'a toujours rien indexé du nouvel article ...
J'ai essayé aussi autre chose, d'inscrire le nouveau blog à blogsearch google, j'ai essayé plusieurs fois (presqu'après chaque nouvel article) mais rien n'y fait, blogsearch google fait le sourd depuis + de 15 jours, à l'inverse, en revanche un blog overblog ou blogspirit y est bien référencé sans même en avoir fait l'inscription, je vois aussi plusieurs blogs sous wordpress référencés dans blogsearch google.
Comment faire pour faire reconnaitre son blog pluxml sous blogsearch google ?
Comment vous faites pour les ping et faire indexer rapidement les nouveaux articles ?

Hamtaro · janvier 2010

Moi, j'ai pas de soucis. Il arrive que mes articles soient référencés dans les 30 minutes sur Google...
Mais peut être parce que j'utilise FeedBurner... A voir.

zetrader · janvier 2010

Hello, je me suis inscrit à google feedburner aussi y a quelques jours mais pour le moment ça ne change rien. Dans l'onglet "publicize" j'ai activé la rubrique pingshot : "Notify interested services when my feed changes" mais pour le moment j'ai pas encore vu que ça fasse quelque chose par rapport à google.
Il y a d'autres choses à faire ?

bg62 · janvier 2010

tout cela n'a rien à voir ... si vous avez un site, il y a en premier le problème du référencement (optimisation on peut "presque" passer avec PluXml ...), mais après reste aussi positionnement, contenu et ETC ....
si votre blog est bien suivi, il n'y a nul besoin , sauf urgence de faire quoique ce soit ensuite (bon un p'tit coup de temps en temps), personnellement un post est pris dans les 5 à 6 heure maxi par google, 10 à 12 par yahoo ou autres ...
vouloir plus en 'forçant' ne vous ménera pas loin ... au contraire ...
:-)

zetrader · janvier 2010

Hello lasouris, hélas j'ai pas cette chance, si je fais rien mes nouvelles pages trainent à être référencées, mais je crois que je suis sous le coup d'une sanction google (page rank passé de 3 à 2 puis à 1, le tout en environ 2 mois sur mon nom de domaine principal) suite à un test de CMS (forum DNF sans base de données) qui avait occasionné bcp de duplicate avec toutes les variables, en le laissant sur la racine de mes domaines (à ce moment là j'étais pas au courant de ces histoires de duplicate content), google a référencé xx fois les mêmes adresses (domaines, sous-domaines, paramètres variables x fois pour chacune des urls des topics) c'est sans doute ce qui m'a valu une sanction par google (trop de duplicate content d'un coup ?), depuis plus d'un mois j'ai corrigé le tir pour supprimer le duplicate, mais la sanction semble continuer, ce qui doit faire que google traine + la patte à référencer mes url.
J'avais vu que ton blog est bien référencé dans blogsearch google, avais-tu fait une demande d'inscription ? C'est long ?
Je pose la question parce que vers fin aout 2009 j'avais fait le test de wordpress dans un répertoire, j'ai supprimé ensuite ce répertoire en novembre 2009, et je vois aujourd'hui que blogsearch google avait référencé ce répertoire en tant que blog dans blogsearch google se sans que je fasse de demande, alors que là avec pluxml en faisant une demande depuis + de 15 jours, en lui ayant indiqué l'url de la page d'accueil, l'url du flux atom, il ne fait rien, il ne l'intègre pas en tant que blog.

gcyrillus-nomade · janvier 2010

Une fois que les 'problemes' qui ont causé une sanction de google sont éliminés , il suffit de soumettre a nouveau le site au moteur de recherche . Si les problèmes sont résolus , l'indexation du site se remet a jour et reprend en principe sa place assez rapidement .

GC

bg62 · janvier 2010

effectivement, il fallait que tu m'en parles ... je ne suis pas trop cette "actualité" ...
http://blogsearch.google.com/blogsearch?hl=fr&oi=spell&ie=UTF-8&q=unesourisetmoi&btnG=Rechercher&lr=
quelques réponses ... :-)
bon GC vient de te donner une réponse partielle, mais je ne pense pas que tu sois sous le coup d'une 'sanction' car quand ça arrive ... ça fait assez mal !
je pense que tout simplement il s'est passé plusieurs choses:
- ton site (puisque c'est un site, avec un site de 'blog', mais c'en est un quand même) a du bénéficier, au début de ce que l'on appelle "la prime à la jeunesse" ... pour les p'tits nouveaux, puis petit à petit google remet les choses en place, il faut reconnaître quand même que tu n'as pas des masses de pages et sur un sujet pas trop 'porteur' au niveau "généraliste" ... de là ton sentiment d'avoir été déclassé peut-être, mais s'il ne vit pas un peu plus et n'attire pas plus d'internaute il restera là où il en est
- comment l'as tu déclaré avec ou sans les ' www ' dans les GWT ? ... là aussi cela peut jouer (exemple ton lien ici ne les comporte pas ...)
- utf8 et déclaration de langue "fr" ... pourquoi pas "iso-8859-1" ça passe beaucoup mieux !
- le coup de la pub google placée à cet endroit n'est peut-être pas très judicieux non plus pour les boots ...
- pour l'inscription dans google blog :
http://blog.unesourisetmoi.info/?article330/inscrire-son-blog-dans-google-blogs
tu y mets ton url et ton flux rss, mais normalement comme c'est un NDD normal pas trop nécessaire, le mien est configuré et déclaré comme sous-domaine, c'est pour ça que j'avais fait ce test ...
- tu ne sembles pas avoir de fichier robots.txt, bien utile pourtant ...
-- à mon humble avis tu devrais prendre le temps d'étoffer ton site, de l'optimiser pour le référencement et seulement après de relancer les différents gros moteurs ... l'effet devrait alors être assez rapide ...
bonne chance ! :-)

zetrader · janvier 2010

"prime à la jeunesse", je ne suis pas sûr, ça dépend de ce que tu appelles jeune pour un site sachant que le site en en .fr je l'ai depuis juin 2006, mais le site existait avant sous d'autres noms de domaines, j'avais commencé à mettre en place mon site bourse vers fin 2002 est-ce vraiment jeune ?
En fait avant de vouloir passer à un site + dynamique, j'avais principalement 2 sites, zetrader.fr (site bourse avec des pages statiques en html) et zetrader.info (site perso, idem que du statique pages html), les deux avaient un pagerank 2 depuis un moment apparemment, chaque site faisant une centaine de pages environ en 2009.
J'ai changé ensuite tous les fichiers html en php (mis à jour tous les liens internes bien sur) en vue de pouvoir mettre du contenu dynamique, j'ai essayé de mettre tout mon contenu sous forme de forum pour un contenu + dynamique pouvoir échanger avec les visiteurs, j'avais donc redirigé vers le forum toutes les pages de mon site et refait le contenu sous forme de forum, j'ai redirigé le site perso vers le forum, temporairement ces changements m'ont donné un pagerank 3 sur zetrader.fr et mes autres domaines, puis ensuite y a eu une brusque chute des visites et un déclassement sur plusieurs requêtes, j'ai cherché à comprendre le problème en parcourant les forums et j'ai vu que je faisais du duplicate.
Le nom de domaine zetrader.fr vers lequel je redirigeais tout est passé ensuite en pagerank2, les autres domaines annexes restaient en pagerank3 (pas très logique si j'axe le référencement et les redirections sur zetrader.fr), ensuite zetrader.fr est passé à pagerank1 puis les domaines annexes sont passés à pagerank2 voire 1 pour certains voire non attribué, là encore c'est pas logique que des domaines annexes soient en pagerank supérieur au domaine principal (par exemple trading-france.com encore pagerank2 alors que je l'ai bcp moins référencé que zetrader.fr).
En fait je voulais simplement rendre le contenu de mon site statique en version dynamique (possibilité d'interactivité avec les visiteurs, flux rss, forum et chat etc...) depuis longtemps sans trouver le bon CMS.
Un trop gros nombre d'erreurs 404 (même redirigé vers d'autres pages) suite à mes "gesticulations" peut-il pénaliser un site ?

Merci pour tes remarques, je vais répondre aux questions.

1) dans GWT j'ai déclaré la forme canonique sans les www puisque www est un sous-domaine et potentiellement du duplicate si on autorise les 2 formes des noms de domaines avec ou sans www (ce que je faisais avant) je l'ai appris récemment suite à mes recherches pour comprendre les erreurs possibles ce qui a justifié ce déclassement sur pagerank et plusieurs requêtes qui s'est ressenti aussi au niveau du nombre de visites, sur la commande link:domaine, j'ai vu aussi le nombre de liens diminuer petit à petit, j'avais pourtant fait y a qq années un important travail de référencement dans pas mal d'annuaires j'y avais passé pas mal de journées mais soit ces annuaires se sont fait déclassés soit leurs liens n'est plus compté comme avant, toujours est-il que j'ai l'impression que tout est à refaire niveau référencement.

2)utf8 c'est pour le nouveau modèle du site (blog) tu veux dire ?
Parce que pour le site dans son ancien modèle (dont je migre le contenu sous forme de blog petit à petit) j'étais en "charset=windows-1252", j'ai rien changé au niveau du type de caractères du blog, donc je suppose que utf8 est le codage par défaut du blog, ce n'est pas le bon codage ?

3) je viens de retirer la pub du header tu as sans doute raison, pub javascript au début de la page c'est peut-être pas optimal pour les bots

4)pour google blog, je l'ai fait plusieurs fois, à chaque fois après de nouveaux articles et en voyant que c'est toujours pas fait, et j'ai fait plusieurs pings sur pingomatic, pingoat etc ... j'ai fait l'inscription sur google feedburner, y a le sitemap déclaré dans GWT, comme tu dis avec un modèle comme pluxml (flux rss, sitemap, plusieurs liens internes etc...), normalement google a tout ce qu'il faut pour référencer correctement et rapidement, c'est bien parce qu'il ne le fait pas en le demandant alors qu'il l'avait fait sans le demander que je me dis qu'il doit y avoir une forme de mise à l'index par google qui rend le référencement plus difficile, sandbox que sais-je ?

5)Je viens de mettre un fichier robots.txt et y déclarer le sitemap mais je pense pas que ça change grand chose, google a bien référencé l'url du sitemap.
Ce que j'ai du mal à comprendre, c'est que le google bot passe sur mon site (on peut voir par exemple avec la version du cache qui est du jour), sans référencer les nouvelles urls alors qu'il a tout ce qu'il faut pour le faire, c'est courant ce comportement du google bot ?

6) pour étoffer le site je vais le faire petit à petit, c'est plutôt déjà une migration de mon ancien contenu (la centaine de pages statiques) sous ce nouveau modèle et au passage petit à petit je ferais du nouveau contenu. Autre chose qui me fait penser à une sanction, avec le forum j'ai globalement + de contenu / de pages (quelques centaines de pages de plus du fait du forum) qu'avant avoir essayé le forum, comment davantage de contenu peut entrainer une chute du pagerank toutes choses égales par ailleurs si il n'y a pas de sanction ?

J'ai demandé une reconsidération dans GWT en décembre après avoir corrigé des erreurs et expliqué la situation, mais je me demande si un humain a lu ma requête, j'ai eu une réponse genre copier/coller comme quoi ma requête avait été traitée, j'ai pas eu de réponse à mes questions, et pas vu d'effet puisque le déclassement a ensuite continué.

J'ai l'impression que c'est les urls de ce forum qui ont foutu la m... surtout lors des redirections où à un moment ça avait renvoyé des paramètres d'url du forum sans aucun sens sur mes domaines dont le domaine principal, depuis j'ai corrigé le tir pour que ça fasse des redirections en supprimant les paramètres de l'url mais le temps que je me rende compte de cette coquille, google a référencé pas mal de ces url sans aucun sens.

En faisant http://www.google.fr/search?q=site%3Azetrader.fr tu peux voir l'étendue des dégats, google déclare 12 000 pages indexées, si y avait réellement 12 000 pages réellement indexées et présenté sur des requêtes style mots clés j'aurais un autre trafic et pagerank que ça

Dans GWT j'ai demandé à google de supprimer des résultats le principal répertoire fautif de tout ce duplicate :
http://www.google.fr/search?&q=site%3Azetrader.fr%2Fforums-bourse-finance-trading%2F
Mais rien n'a été fait en bientôt 2 mois concernant cette requête.

Passage au "dynamique" laborieux mais c'est surtout à cause d'un mauvais choix de CMS (pas du tout pensé pour le référencement), pluxml est bien mieux pensé pour le référencement que ce forum DNF (liens en javascript sur les topics par exemple, le google bot quand il passe là-dessus il voit aucun des liens).
Le concept est intéressant mais trop de défauts à corriger pour être au gout du jour pour le référencement, ce type de forum sans base de données est victime de son âge.
En voyant pluxml je me suis dit que le forum DNF (da nobodx forum) sans base de données, basé sur des fichiers .txt pourrait vraiment s'améliorer en s'inspirant du modèle pluxml mais ce modèle de forum ne semble désormais plus trop suivi / maintenu alors que de nombreux défauts de jeunesse restent à corriger (je m'en étais pas rendu compte tout de suite).

Merci pour ton message d'encouragement et tes conseils, et bravo pour ton boulot sur ton blog que j'ai déjà visité pas mal de fois

bg62 · janvier 2010

excuse-moi mais pas trop le temps de répondre aujourd'hui, donc verrai cela à tête reposée ... surtout qu'il y en a un sacré paquet et que commençant par :
"www est un sous-domaine" ... là c'est très mal parti !!!
même le resposable du W3C reconnaît qu'il n'aurait pas du ... au départ ... mais que l'on ne peut plus faire machine arrière à l'heure actuelle, alors trouver des rigolos qui te disent que "www" est considéré comme tel faut vraiment le faire, et dans les GWT, c'est le contraire qu'il faut essayer d'imposer si on le veut (mais pourquoi ???)
... la suite @+

zetrader · janvier 2010

Pourtant c'est ce que j'ai lu sur plein de sites et forums sur le référencement au hasard de mes recherches sur le duplicate (avant je pensais que www était une variante du nom de domaine c'est tout), serait-ce faux ?
Exemple :
http://www.hebergement-site-web.info/sous-domaines.htm
"Lorsqu'on tape "www.cnn.com" dans la barre d'adresse du navigateur pour visiter le site Web de CNN, on utilise dans ce cas ce qu'on appelle le sous-domaine."
Voir aussi cette requête :
http://www.google.fr/search?hl=fr&q=%22www+est+un+sous-domaine%22

Seraient-ils dans le faux ? Difficile de savoir, on lit tellement de choses sur les forums, enfin pour ça j'avais pas entendu le contraire, essayons :
http://www.google.fr/search?hl=fr&q=%22www+n%27est+pas+un+sous-domaine%22

Ah y en a aussi, bordel !

Bon en tout cas il faut en choisir une des deux formes (peu importe laquelle d'ailleurs non ?) si tu vas sur pluxml.org je vois qu'ils ont choisi comme moi la forme sans le www, essaye de taper www.pluxml.org tu verras ils ont fait la redirection vers pluxml.org, comme je l'ai fait il y a peu pour mon domaine.
D'ailleurs pourquoi pluxml a fait le choix du sans www, il faudrait leur demander ?
Pour ma part, ce qui a motivé ce choix sans www c'est juste que quitte à choisir, autant choisir l'url la plus courte.

Sinon il ne faut pas laisser les deux formes accessibles (avec et sans www) comme je l'avais fait sinon on fait du duplicate sur toutes ses pages sans le savoir (c'était donc une faute vis à vis de google), j'ai bon là-dessus ?

bg62 · janvier 2010

encore une fois désolé, mais très peu de temps ... surtout pour polémiquer sur une question vieille comme ...le NET et donc le ... WWW !
http://fr.wikipedia.org/wiki/World_Wide_Web
et qui a déjà fait couler bien trop d'encre de toutes les couleurs, surtout pour certains, qui sans savoir bidouillent à tour de bras ...
On peut toujours accéder à un NDD pas les deux sortes d'urls , après s'il y a redirection ou pas, c'est autre chose ... mais ce n'est pas non plus la raison de "sanctions" ...
Il suffit tout simplement au départ de se mettre à la place de l'internaute "lambda" et de se demander ce qu'il fait sur son clavier ... ce qu'il cherche, comment il le cherche et comment il le trouve ... principe de base ... (rester simple !)
@+ ... :-)
et surtout attention aux recherches sur le net, bien savoir trier les réponses, surtout dans un domaine où bien souvent il semblerait que ... entretenir la confusion est le mot 'roi' dans cette jungle !

zetrader · février 2010

Hello, quelques news, après avoir migré une partie de mon site sous forme de blog, j'ai vu il y a quelques jours que les url de mes nouveaux articles étaient enfin référencés sous quelques minutes après ping.
Pour comprendre d'où pouvait venir ce changement, j'ai regardé dans blog search google et mon blog venait d'y être intégré (pas trop tôt plus d'un mois après ma demande).
Cela change des choses parce que maintenant après ping, l'url d'un nouvel article est référencé dans google sous 1 ou 2 minutes, cela fait plaisir à voir.
Avant cela les url des nouveaux articles n'étaient parfois pas référencé le lendemain après ping et passage du robot sur la page du blog, les url des articles trainaient beaucoup à être référencé (plusieurs jours) voire n'étaient pas référencé du tout si je ne faisais pas de liens qui pointent sur l'article non référencé depuis un autre blog.

Pluxml est donc bien référençable rapidement à chaque nouvel article, l'inscription effective dans blog search google semble accélérer très fortement la vitesse d'indexation dans google.

En revanche si je ne fais pas le ping manuellement après l'article, j'ai l'impression que ça prend un peu plus de temps, si je ne fais pas le ping quelques minutes plus tard l'url du nouvel article n'est pas référencé, en revanche après avoir fait le ping du blog le référencement du nouvel article dans google est quasi immédiat (entre 1 et 2 minutes maxi jusqu'ici).

Cela dit ça ne retire pas ma suggestion initiale, pourquoi ne pas faire le ping en automatique dans pluxml comme worpress le fait à chaque nouvel article sans qu'on s'en occupe ?
Un ping automatique à la publication d'un article serait-il difficile à intégrer ?

bg62 · février 2010

ET pourrais-tu nous dire comment tu procèdes (techniquement) pour faire ce que tu appelles 'ping' ?

petitchevalroux · septembre 2012

Désolé je déterre le sujet parce que je suis intéressé par cette fonctionnalité.

Techniquement il faut envoyer une requête XML-RPC à un serveur, soit un post du genre :

POST /RPC2 HTTP/1.0
User-Agent: request
Host: blogsearch.google.com
Content-Type: text/xml
Content-length: 447

<?xml version="1.0"?>
<methodCall>
  <methodName>weblogUpdates.extendedPing</methodName>
  <params>
    <param>
      <value>Official Google Blog</value>
    </param>
    <param>
      <value>http://googleblog.blogspot.com/</value>
    </param>
    <param>
      <value>http://googleblog.blogspot.com/</value>
    </param>
    <param>
      <value>http://googleblog.blogspot.com/atom.xml</value>
    </param>
  </params>
</methodCall>

Les paramètres sont les suivants :
Nom du site
Url du site
Url de la page modifiée
Url du flux rss ou atom

Et la réponse :

HTTP/1.1 200 OK
Connection: close
Content-Length: 451
Content-Type: text/xml
Date: Sun, 30 Sep 2001 20:02:30 GMT
Server: Apache

<?xml version="1.0"?>
<methodResponse>
  <params>
    <param>
      <value>
        <struct>
          <member>
            <name>flerror</name>
            <value>
              <boolean>0</boolean>
            </value>
          </member>
          <member>
            <name>message</name>
              <value>Thanks for the ping.</value>
          </member>
        </struct>
      </value>
    </param>
  </params>
</methodResponse>

Je suis entrain de voir comme intégrer cette fonctionnalité soit dans un plugin soit directement dans le code. Au départ j'avais pensé à le faire dans plxAdmin::editArticle ou son hook mais je viens de me rendre compte que cela ne fonctionne pas pour les articles postés dans le futur ( ou post programmés).

Je me dis qu'il faudrait presque le faire dans le construct en fonction de la date de modification de l'article. Du genre si l'article a changé depuis le dernier ping (ce qui voudrait dire stocker la date du ping), on lance à nouveau le ping. Vous en pensez quoi ?

Autre question que je me pose c'est comment envoyer la requête. Curl n'étant pas installer sur toutes les installations, je suggère de passer par fsockopen qui permet de faire cela sur quasiment toutes les install'.

Stéphane · septembre 2012

Bonjour

Pour curl et fsockopen le problème est identique. Leur utilisation n'est possible que si elle est autorisée par l'hébergeur. Il n'y a pas de règle. Je ne pense pas qu'on puisse dire que l'utilisation des sockets peut se faire sur quasiment toutes les install.

Pour les pings je ne sais pas.

bg62 · septembre 2012

la solution (en l'état actuel des choses) reste simple :
prendre le temps de se servir d'un bon service de ping lors de la mise en ligne de chaque article et avec les nouvelles "règles" de google, de temps en temps, lui renvoyer le sitemap ....
selon les cas 1minutes à ... pour être indexé ... ça vaut quand même le coup de passer 1 minute à 'pinguer'

petitchevalroux · septembre 2012

Les pings nécessitent un accès au http

fsockopen fait parti des fonctions de base de php
curl doit être installé en plus (paquet ou via option de compilation)

C'est en cela que je dis que fsock est plus souvent dispo. Bien entendu les hébergeurs peuvent l'interdire comme ils peuvent installer suhosin

Concernant le placement du code je n'ai pas encore trouvé d'endroit idéal :-/

petitchevalroux · septembre 2012

@bg62 1 minute à chaque article publié, ça vaut bien quelques heures à coder un plugin

Je viens d'écrire un premier jet d'un plugin que j'ai mis en test sur l'un de mes pluXml

Dispo à l'adresse : http://petitchevalroux.net/dl/seoping-0.0.1.zip

Il fonctionne avec une queue d'article à pinguer.

L'ajout d'un article dans la queue est fait via le hook plxAdminEditArticle
Le traitement de la queue est fait via le hook plxMotorParseArticle

Il manque la détection des articles "A modérer" mais je n'ai pas trouver comment le faire, si vous pouvez me filer un petit coup de main la dessus

Autre question : est il possible de lever une erreur sur le OnActivate pour refuser l'activation du plugin si les fonctions fsock ne sont pas dispo ?

J'ai stocké la queue dans le répertoire des articles dans un fichier seoping.json, je ne savais pas trop ou la mettre et je sais que ce répertoire est forcement ok pour l'écriture.

Il me reste à gérer la suppression des articles et éventuellement ajouter le ping lors qu'un commentaire est publié (et pas posté à cause l'éventuelle modération). Là encore j'ai besoin de votre aide.

Il faudrait aussi que j'ajoute la configuration des serveurs à pinguer, pour l'instant dispo uniquement sur google.

Autre suggestion : Afficher un log des derniers pings envoyés et leurs status (ok ou pas ok) dans le panneau de configuration.

Pour ceux qui n'ont pas le courage de télécharger le plugin pour voir le code, voici le code principal du plugin : http://codepad.org/SCk8kZXJ

blacknight · février 2014

Si besoin c'est cadeau

Le plugin est disponible ici : PingMySitemap

Url officielle sur le forum : http://forum.pluxml.org/viewtopic.php?pid=37601

++

Blacky

pluxml et ping pour référencement rapide des articles

Réponses