Url Rewriting et Duplicat Content GOOGLE

hamoudi · juillet 2011

Bonjour,

J’ai activé l’Url rewriting sur mon site qui tourne avec la dernière version de PluXml 5.1.1
Tout fonctionne bien…

Cependant, j’ai un problème avec mon référencement Google.
Mes articles (avec Url rewritée) sont maintenant accessibles par 3 urls :
monsite.com/article1/poussin-jaune
monsite.com/article1/
monsite.com/article1/poussin-jaune.html

Je veux que Google prenne seulement en compte la première URL (monsite.com/article1/poussin-jaune) afin d’éviter de faire du Duplicate Content…
Mais Google référencie mes articles en deux fois avec les deux premières urls (monsite.com/article1/poussin-jaune et monsite.com/article1/).

Comment puis-je faire pour régler ce problème ?
Pour régler mon problème: Existe t-il une solution pour écrire les urls comme ceci:
monsite.com/poussin-jaune-article1

Merci

amoweb · juillet 2011

Je suis en train de trouver une solution. Je la transmet tout a l'heure.

hamoudi · juillet 2011

Super... Nous l'attendons avec impatience...

amoweb · juillet 2011

# Anti doublon :
if(preg_match('/^article([0-9]+)\/?$/',$plxMotor->get)) {
	$a=0;
	while(!preg_match('#^' . str_pad(preg_replace('/^article([0-9]+)\/?$/', '\1', $plxMotor->get),4,'0',STR_PAD_LEFT) . '\.#', $plxMotor->plxGlob_arts->aFiles[$a]))
		$a++;
	
	header("HTTP/1.1 301 Moved Permanently");
	header('Location: ' . $plxMotor->urlRewrite('?article' . preg_replace('/^article([0-9]+)\/?$/', '\1', $plxMotor->get) . '/' . preg_replace('#\d{4}\.(home|[0-9,])*\.\d{3}\.\d{12}\.([a-z0-9-]+)\.xml$#', '\2', $plxMotor->plxGlob_arts->aFiles[$a])));
	exit;
}

Voilà, c'est à placer dans index.php juste après

$plxMotor->prechauffage();
$plxMotor->demarrage();

Stéphane · juillet 2011

a quoi sert la boucle while ?

amoweb · juillet 2011

Elle sert à trouver l'article qui correspond au numéro. Je compare par rapport à la liste des fichiers pour trouver la fin de l'url.

Stéphane · juillet 2011

ça irait pas plus vite avec un truc du genre... (peux pas tester j'ai rien sous la main, mais l'idée est là)

if(preg_match('/^article([0-9]+)\/?$/',$plxMotor->get, $capture)) {

    header("HTTP/1.1 301 Moved Permanently");
    header('Location: ' . $plxMotor->urlRewrite('?article' . preg_replace('/^article([0-9]+)\/?$/', '\1', $plxMotor->get) . '/' . preg_replace('#\d{4}.\d{3}.\d{3}.\d{12}.([a-z-]+)\.xml$#', '\1', $plxMotor->plxGlob_arts->aFiles[$capture[1]])));
    exit;

}

amoweb · juillet 2011

Si totalement, j'ai mis à jours mon post. J'avais complètement zapé que aFiles était trié.

EDIT : aFiles, n'est pas trié à cet endroit du code. Je vais déplacer le hack.

hamoudi · juillet 2011

Merci beaucoup...
Si j'ai bien tout suivi pour régler mon problème de Duplicat Content il suffit de placer dans index.php juste après

$plxMotor->prechauffage();
$plxMotor->demarrage();

le code suivant?

Stéphane a écrit:

ça irait pas plus vite avec un truc du genre... (peux pas tester j'ai rien sous la main, mais l'idée est là)

if(preg_match('/^article([0-9]+)\/?$/',$plxMotor->get, $capture)) {

    header("HTTP/1.1 301 Moved Permanently");
    header('Location: ' . $plxMotor->urlRewrite('?article' . preg_replace('/^article([0-9]+)\/?$/', '\1', $plxMotor->get) . '/' . preg_replace('#\d{4}.\d{3}.\d{3}.\d{12}.([a-z-]+)\.xml$#', '\1', $plxMotor->plxGlob_arts->aFiles[$capture[1]])));
    exit;

}

Stéphane · juillet 2011

si on veut mettre ce genre de control en natif pour eviter le duplicate content (ça me semble plutot pas mal à pendre en considération), on peut optimiser tout ça

plutot que de mettre la modif dans index.php (pas très propre à mon gout et optimisé en plus car le test est toujours fait, qu'on soit en mode categorie, static, etc...), on fait ça dans class.plx.motor.php, fonction prechauffage

tu adaptes la ligne suivante pour avoir le bon regex

elseif($this->get AND preg_match('/^article([0-9]+)\//',$this->get,$capture)) {

si dans l'url on demande article10 on valide le if, on test ensuite si le nom du fichier est présent dans l'url pour faire une redirection 301 si nécessaire.

amoweb · juillet 2011

@hamoudi Non, pour l'instant il faut prendre le code que je décrit dans ce post qui fonctionne.

@Stéphane : Oui une solution plus propre serait mieux. Là j'ai juste voulu donner une solution simple à mettre en place. Je vais regarder pour le mettre en natif.

Stéphane · juillet 2011

d'ailleurs plutot que de proproser ce genre de solution, il faudrait peut etre d'abord regarder pourquoi on se retrouve avec des urls du type

monsite.com/article1/poussin-jaune
monsite.com/article1/

si c'est à cause de pluxml, on corrige, parce que je suis pas certain que le genre de patch proposé soit la solution à tous les problèmes. d'ailleurs au passage ce genre de duplicate content est surement aussi valable pour

monsite.com/static1/statique-1
monsite.com/static1/

monsite.com/categorie1/rubrique-1
monsite.com/categorie1/

donc on en fini plus de patcher

hamoudi · juillet 2011

Oui en effet c'est le même problème pour:
monsite.com/static1/statique-1
monsite.com/static1/
Dans l'attente je vais adapter le patch pour static et categorie

de laa façon suivante:

Pour static

.
# Anti doublon :
if(preg_match('/^static([0-9]+)\/?$/',$plxMotor->get)) {

    $a=0;
    while(!preg_match('#^' . str_pad(preg_replace('/^static([0-9]+)\/?$/', '\1', $plxMotor->get),4,'0',STR_PAD_LEFT) . '\.#', $plxMotor->plxGlob_arts->aFiles[$a]))
        $a++;

    header("HTTP/1.1 301 Moved Permanently");
    header('Location: ' . $plxMotor->urlRewrite('?static' . preg_replace('/^static([0-9]+)\/?$/', '\1', $plxMotor->get) . '/' . preg_replace('#\d{4}\.\d{3}\.\d{3}\.\d{12}\.([a-z-]+)\.xml$#', '\1', $plxMotor->plxGlob_arts->aFiles[$a])));
    exit;
}

.

Et

Pour categorie

.
# Anti doublon :
if(preg_match('/^categorie([0-9]+)\/?$/',$plxMotor->get)) {

    $a=0;
    while(!preg_match('#^' . str_pad(preg_replace('/^categorie([0-9]+)\/?$/', '\1', $plxMotor->get),4,'0',STR_PAD_LEFT) . '\.#', $plxMotor->plxGlob_arts->aFiles[$a]))
        $a++;

    header("HTTP/1.1 301 Moved Permanently");
    header('Location: ' . $plxMotor->urlRewrite('?categorie' . preg_replace('/^categorie([0-9]+)\/?$/', '\1', $plxMotor->get) . '/' . preg_replace('#\d{4}\.\d{3}\.\d{3}\.\d{12}\.([a-z-]+)\.xml$#', '\1', $plxMotor->plxGlob_arts->aFiles[$a])));
    exit;
}

.

Et placer le tout dans index.php juste après:

.
$plxMotor->prechauffage();
$plxMotor->demarrage();

.

C'est bien cela?

Merci beaucoup

Merci beaucoup

hamoudi · juillet 2011

amoweb a écrit:

# Anti doublon :
if(preg_match('/^article([0-9]+)\/?$/',$plxMotor->get)) {

	$a=0;
	while(!preg_match('#^' . str_pad(preg_replace('/^article([0-9]+)\/?$/', '\1', $plxMotor->get),4,'0',STR_PAD_LEFT) . '\.#', $plxMotor->plxGlob_arts->aFiles[$a]))
		$a++;

	header("HTTP/1.1 301 Moved Permanently");
	header('Location: ' . $plxMotor->urlRewrite('?article' . preg_replace('/^article([0-9]+)\/?$/', '\1', $plxMotor->get) . '/' . preg_replace('#\d{4}\.\d{3}\.\d{3}\.\d{12}\.([a-z-]+)\.xml$#', '\1', $plxMotor->plxGlob_arts->aFiles[$a])));
	exit;
}

Voilà, c'est à placer dans index.php juste après

$plxMotor->prechauffage();
$plxMotor->demarrage();

J'ai tenté de mettre en place ton Patch mais j'ai l'impression que cela ne régle pas le problème.
En effet quand je tente maintenant d'aller sur ma page par l'url: www.monsite/article1/
J'arrive bien sur ma page mais l'url devient:
monsite.com/article2/0002.home#,003.001.201107131635.poussin-jaune.xml
Donc cela génère une url supplémentaire...

Une autre idée:
Peut-être est il possible par un bout de code d'interdire radicalement l'accés à une page par une url du type: www.monsite/article1/ ?

Merci

amoweb · juillet 2011

Oui, j'avais fais une erreur dans le code (j'ai mis le correctif dans mon premier post). Donc normalement ça devrait te rediriger vers le lien complet tout en envoyant une erreur 301 aux moteurs de recherches qui leur dit de ne prendre en compte que le lien complet.

C'est vrai qu'il faudrait appliquer le truc aux autres types de pages. Personnellement je l'ai appliqué à mon site, même si ça corrige pas le problème à la base (pourquoi ces liens incomplets sont générés), ça devrait corriger le problème sur les moteurs de recherches. Pour ne pas être pénalisé pour les doublons.

hamoudi · juillet 2011

amoweb a écrit:

Oui, j'avais fais une erreur dans le code (j'ai mis le correctif dans mon premier post). Donc normalement ça devrait te rediriger vers le lien complet tout en envoyant une erreur 301 aux moteurs de recherches qui leur dit de ne prendre en compte que le lien complet.

C'est vrai qu'il faudrait appliquer le truc aux autres types de pages. Personnellement je l'ai appliqué à mon site, même si ça corrige pas le problème à la base (pourquoi ces liens incomplets sont générés), ça devrait corriger le problème sur les moteurs de recherches. Pour ne pas être pénalisé pour les doublons.

Super J'ai testé et cela marche très bien! Super boulot merci pour moi mais aussi pour tous les autres...
Comment sais-tu que l'url incompléte renvoie une erreur 301 au moteurs?

hamoudi · juillet 2011

Salut Je viens de constater un dysfonctionnement...
La redirection ne se fait pas vers l'article avec l'url compléte mais vers l'url du dernier article posté sur le site.
Le plus simple peut-être serait de faire que l'url incompléte mène vers une page d'erreur. Est-ce possible?

Penses-tu aussi qu'il soit possible d'adapter ce code pour les pages statiques et les catégories?

Merci

amoweb · juillet 2011

Non si on redirige vers une page d'erreur, ça risque d'empêcher certaines choses (comme la lecture des commentaires).

Sur mon blog, mon code fonctionne. C'est étrange, mais je l'ai fais assez rapidement...
En même temps, je ne sais pas si les moteurs de recherches pénalisent vraiment le duplicat content. En tout cas, j'ai des articles très bien référencés.

Je ne sais pas si j'aurai le temps de débugger mon code.

On peut adapter ce code pour les autres bien sûr.

hamoudi · juillet 2011

amoweb a écrit:

Non si on redirige vers une page d'erreur, ça risque d'empêcher certaines choses (comme la lecture des commentaires).

Sur mon blog, mon code fonctionne. C'est étrange, mais je l'ai fais assez rapidement...
En même temps, je ne sais pas si les moteurs de recherches pénalisent vraiment le duplicat content. En tout cas, j'ai des articles très bien référencés.

Je ne sais pas si j'aurai le temps de débugger mon code.

On peut adapter ce code pour les autres bien sûr.

Désolé c'est moi qui ai fait une mauvaise manip...
J'ai essayé d'adapter ton code pour les pages statiques et les catégories... Dans un premier temps ça faisait dysfontionner le code pour les articles puis je me suis retrouvé avec un page d'erreur 500...
J'avais dû mal adapter ton code pour les pages statiques et les catégories...

Peux-tu stp adapter ton code pour les pages statiques et les catégories? Merci...

gcyrillus-nomade · juillet 2011

Bonjour,

heu, google(et les autres) ne devinent pas les URL, il ne suivent que les liens qu'on leur donne.
Le "moteur" produit toujours le même type d'url . (mode + numéro +/titre-pour-faire-plus-clair)
(Et en plaçant le titre de page derrière un dièse plutôt qu'un slash ...

)

Ce mode de fonctionnement de PluXml a déjà a plusieurs reprises été débattu ou évoqué.
Je m’inquiéterais plutôt du cas ou j'activerais l'URL Rewriting sur un site déjà bien référencé.
(Faut-il alors mettre un 301 pour l'URL non réécrite ?)

Cordialement, GC

jpfleury · août 2011

gcyrillus-nomade a écrit:

heu, google(et les autres) ne devinent pas les URL, il ne suivent que les liens qu'on leur donne.
Le "moteur" produit toujours le même type d'url . (mode + numéro +/titre-pour-faire-plus-clair)

Dans la liste des derniers commentaires, les liens sont sous la forme article1/#id-commentaire. Idem pour le lien permanent de chaque commentaire (par exemple le lien du texte cliquable #1).

Les moteurs de recherche connaissent donc à tout le moins deux URL différentes pour un même article.

jpfleury · août 2011

hamoudi a écrit:

Mes articles (avec Url rewritée) sont maintenant accessibles par 3 urls :
monsite.com/article1/poussin-jaune
monsite.com/article1/
monsite.com/article1/poussin-jaune.html

Il y a aussi avec ou sans point d'interrogation:

monsite.com/?article1/poussin-jaune
monsite.com/?article1/
monsite.com/?article1/poussin-jaune.html

Aussi, n'importe quoi peut suivre article1/ et ça va quand même lier vers la même page:

monsite.com/article1/abc
monsite.com/article1/a/b/c

Jeoffrey · août 2011

Salut !

Ou en est-on actuellement ?

Quel code est à utiliser pour éviter le duplicate-content ?

Merci de votre aide

.

Url Rewriting et Duplicat Content GOOGLE

Réponses