Moteur de recherche
Bonsoir,
Je suis en train de finaliser l'adaptation d'un script PHP pour un moteur de recherche qui serait adaptable à Pluxml.
Il est très rapide, affiche le titre de l'article et le passage contextuel du mot clef recherché. Il est possible de définir le nombre de résultats par page.
Mais j'ai un souci : je ne sais pas transformer le nom du fichier XML (par exemple : 0013.013.bolo.xml) en "13-bolo" qui le rendrait ainsi cliquable dans un lien figurant dans une liste de résultats.
Je subodore qu'il convient d'utiliser des regex, mais c'est au-dessus de mes forces.
Le code figure ci-après
Merci pour votre aide, amicalement,
Bric
Je suis en train de finaliser l'adaptation d'un script PHP pour un moteur de recherche qui serait adaptable à Pluxml.
Il est très rapide, affiche le titre de l'article et le passage contextuel du mot clef recherché. Il est possible de définir le nombre de résultats par page.
Mais j'ai un souci : je ne sais pas transformer le nom du fichier XML (par exemple : 0013.013.bolo.xml) en "13-bolo" qui le rendrait ainsi cliquable dans un lien figurant dans une liste de résultats.
Je subodore qu'il convient d'utiliser des regex, mais c'est au-dessus de mes forces.
Le code figure ci-après
<?php
/* * * * * * * * * * * * * * * * * * * * * * *
Moteur de recherche pour Pluxml
Une adaptation par Bric de
A Blork Engine v0.23b par zulios (2003)
* * * * * * * * * * * * * * * * * * * * * * */
//nombre de résultats par page
$maxipage="20";
// dossiers qui contiennent les articles à rechercher :
// notez : pas de / à la fin du chemin d'accès au dossier
$dossier=array(
// "ce dossier"=>".",
"ce dossier"=>"core/xml",
);
// rechercher dans les sous-dossiers ? on ou off.
$scan_sousdos="off";
// exlure certains fichiers :
$exclu=array(
"foo.php",
"foo.gif",
);
// Afficher les extensions
$montre_ext="off";
// URL à utiliser dans le moteur de recherche
$go2url="index.php?[fichier]";
// On adapte les variables selon la version de PHP
$version_de_php=phpversion();
$version_de_php=str_replace(".","",$version_de_php);
if($version_de_php>=410){
@$action = $_GET['action'];
@$pluxsearch = $_GET['pluxsearch'];
@$start = $_GET['start'];
@$multi = $_GET['multi'];
}
// Liste des codes htmls spéciaux
$caractere_special=array(
"à"=>"à",
"á"=>"á",
"â"=>"â",
"ã"=>"ã",
"ä"=>"ä",
"å"=>"å",
"æ"=>"æ",
"ç"=>"ç",
"è"=>"è",
"é"=>"é",
"ê"=>"ê",
"ë"=>"ë",
"î"=>"î",
"ï"=>"ï",
"ô"=>"ô",
"ö"=>"ö",
"ù"=>"ù",
"ú"=>"ú",
"û"=>"û",
"ü"=>"ü",
"&"=>"&",
);
// Variables par défaut
if(@$maxmots==""){ $maxmots="20"; }
if(@$maxipage==""){ $maxipage="20"; }
if(@$start=="" || $start=="0" ){ $start="1"; }
$longueur_pluxsearch=strlen($pluxsearch);
$pluxsearch=trim($pluxsearch);
$pluxsearch=ereg_replace(" +", " ", $pluxsearch);
$pluxsearch2=htmlspecialchars($pluxsearch);
$form_recherche="<form method=\"get\"><p>Nouvelle recherche :<br />
<input type=\"hidden\" value=\"go\" name=\"action\">
<input type=text value=\"$pluxsearch2\" maxlength=50 size=25 name=pluxsearch>
<input type=submit value='Trouver !'></p>
</form>";
?>
<?php
// On vérifie que la recherche est correctement lancée
if($action!="go"){ echo("$form_recherche");
exit(); }
// On vérifie la longueur de la recherche
if($longueur_pluxsearch<3){
echo("<p>Votre recherche doit comporter au moins trois caractères.<br> $form_recherche</p>");
exit(); }
// Résultats à 0
$compteresultats="0";
$zetotal="0";
// Passage en minuscules de la recherche
$pluxsearch=strtolower($pluxsearch);
// Maintenant on lance le scan classique sur les dossiers de la liste
// Les sous-dossiers ont été rajoutés au besoin par la fonction précédente
foreach($dossier as $nomdos=>$d){
// Sésame ouvre toi
$fp=opendir("$d");
while($file = readdir($fp)){
if($file=="." || $file==".." || is_dir($file)){ continue; }
// On ne scanne pas les fichiers exclus
if(in_array($file, $exclu)){ continue; }
// On récupère l'extension
// Merci à Frédéric Bouchery pour ce regex :-)
$ext = ereg_replace('^.*[.]([^.]*)$', '\\1', $file);
// Sélection des extensions
// On ne scanne que ces types de fichiers
if(
$ext!="html"
&& $ext!="htm"
&& $ext!="xml"
&& $ext!="php"
&& $ext!="php3"
&& $ext!="txt"
&& $ext!="php4"
&& $ext!="gif"
&& $ext!="jpg"
&& $ext!="png"){ continue; }
// Maintenant on est sûr de devoir scanner le fichier
// On peut éxécuter tous les traitements nécessaires
// Détermination du type de fichier
// On ne vérifiera que le nom des fichiers de type "img" (image)
// alors que les fichiers de type "normal" seront entièrement retraités
// car considérés comme contenant du texte lisible par le moteur.
if($ext=="html" || $ext=="htm" || $ext=="php" || $ext=="php3" || $ext=="txt" || $ext=="xml" || $ext=="php4"){
$filetype="normal"; } else{ $filetype="img"; }
// Maintenant qu'on a déterminé la place de notre fichier entre les deux types
// On va appliquer des retraitements préliminaires sur les fichiers de type "normal" uniquement
if($filetype=="normal"){
// On ouvre le contenu du fichier
$recupere_le_fichier=fopen("$d/$file","r");
$tout=fread($recupere_le_fichier,500000);
fclose($recupere_le_fichier);
// Passage en minuscules
$tout=strtolower($tout);
// On vire le html et le php
$tout=strip_tags($tout,'<title></title><script></script><head></head><style></style><infopost></infopost><chapo></chapo>');
// On récupère le titre du fichier
// Ou alors on affiche le nom avec l'extension
// Puis on supprime le titre pour ne pas fausser les résultats
if(strpos($tout,"<title>") && strpos($tout,"</title>"))
{
$titre1=strstr($tout,'<title>');
$titre2=strstr($tout,'</title>');
$titre1=str_replace("$titre2","",$titre1);
$titre1=str_replace("<title>","",$titre1);
if($titre1==""){ $titre=$file; } else{ $titre=$titre1; }
}
else{
$titre=$file; }
$titre=strtolower($titre);
unset($titre1, $titre2);
$tout = preg_replace('`<title.*?/title>`', '', $tout);
// 3 étapes ici :
// Etape 1 -
// On effectue des remplacements pour pouvoir appliquer les regex :
// 1- On remplace le saut de ligne par un espace
// 3- Les (code html pour une espace insécable) sont remplacés par des espaces
// 4- Les doubles espaces sont remplacés par une simple espace
// Etape 2-
// On lance les regex
// 1- On vire le code entre <head> et </head>
// 2- On vire le javascript pour éviter les bugs au cas ou une partie nous aurait échappée
// 3- On vire les attributs de style pour les mêmes raisons
// Etape 3-
// On remplace le code html des accents et autres caractères spéciaux par le terme correspondant
// pour le titre ET le contenu
$tout = str_replace("\n"," ",$tout);
$tout = str_replace(" "," ",$tout);
$tout = str_replace(" "," ",$tout);
$tout = preg_replace('`<head.*?/head>`', '', $tout);
$tout = preg_replace('`<script.*?/script>`', '', $tout);
$tout = preg_replace('`<style.*?/style>`', '', $tout);
foreach($caractere_special as $caractere_code=>$caractere_traduction){
$tout = str_replace("$caractere_code","$caractere_traduction",$tout);
$titre = str_replace("$caractere_code","$caractere_traduction",$titre); }
// Fin du retraitement
}
// Maintenant le fichier a été retraité (si nécessaire),
// on peut voir s'il contient ce qu'on cherche.
// On incrémente le nb de fichiers scannés
$zetotal++;
if($zetotal>9999){ continue 2; }
// Si on trouve la recherche
if(strpos("$tout","$pluxsearch") || strpos("$file","$pluxsearch") || strpos("$titre","$pluxsearch")){
// Résultats +1
$compteresultats++;
// S'il s'agit d'un fichier de type "normal"
if($filetype=="normal"){
// On compte les occurences du terme
// Les occurences trouvées dans le titre comptent pour 10 (pire qu'au scrabble) car ils sont souvent explicites sur le contenu de la page
@$total_mots=intval(substr_count($titre,$pluxsearch)*10+$total_mots);
@$total_mots=intval(substr_count($tout,$pluxsearch)+$total_mots);
// On crée la description
$position=strpos($tout, $pluxsearch);
$start_position=intval($position-50);
if($start_position<0){ $start_position="0"; }
$fin_position=intval($longueur_pluxsearch+100);
if(@$position === FALSE ){ @$resume.="Terme exact introuvable dans le corps de l'article."; }
else{
$resume="... ";
$resume.=substr($tout, $start_position, $fin_position);
$resume.=" ... ";
// On met en gras le terme recherché dans la description
$resume=str_replace($pluxsearch,"<b>$pluxsearch2</b>",$resume); }
}
// Si c'est une image ou un autre type de fichier
// On adapte la description
else{ $resume="Fichier $ext"; }
// Puis dans le titre
$titre=str_replace($pluxsearch,"<b>$pluxsearch2</b>",$titre);
// Calcul du pourcentage de pertinence
similar_text($pluxsearch, $tout, $p1);
similar_text($pluxsearch, $titre, $p2);
$p=intval($p1+$p2);
// Si le pourcentage est supérieur ou égal à 100 on le ramène à 99
// Et s'il est égal à 0 on le ramène à 1 pour qu'il puisse être réindexé (voir suite)
if($p>=100){ $p="99"; }
if($p=="0"){ $p="1"; }
// On va créer une clé identique pour chaque résultat.
// Le premier sera un "1", pour que la clé soit réindexée
// Le suivant sera le nombre d'occurences total de mots trouvés (en dizaines)
// Ensuite le pourcentage de similarité du texte + celui du titre (deux chiffres)
// Enfin le numéro du résultat (4 chiffres)
// Avec cette clé on pourra classer les résultats par ordre décroissant selon le chiffre obtenu, donc par pertinence.
// Notes :
// La clé ne doit pas commencer par 0 donc il était important de mettre en premier
// un "1", ou un chiffre supérieur à 0 en tout cas.
// La clé ne doit pas être supérieure à 8 chiffres, sinon elle ne sera pas réindexée.
// Cette bidouille me permettra par la suite avec array_unshift() de réindexer le tableau avec
// des clés numériques pour pouvoir afficher uniquement les résultats souhaités, donc j'économise
// du temps d'éxécution et des ressources par rapport à l'ancienne méthode qui consistait à créer
// un nouveau tableau. L'array_unshift() me rajoutera une valeur de clé 0 que je ne supprime pas
// parce que je pourrai ainsi gérer mes résultats à partir de 1, ce qui est plus logique.
// On ramène les occurences au maxi à 99
// Puis on rajoute un 0 devant le chiffre s'il est inférieur à 10
// Enfin on ne garde que le chiffre des dizaines
if($total_mots>=100){ $total_mots="99"; }
if (strlen($total_mots)==1){
$total_mots=str_repeat("0",2-strlen($total_mots)).$total_mots; }
$total_mots=substr($total_mots, 0, 1);
// Idem pour les pourcentages
if (strlen($p)==1){
$p=str_repeat("0",2-strlen($p)).$p; }
// Et enfin le numéro du résultat
$compteresultats2=$compteresultats;
if (strlen($compteresultats2)<4){
$compteresultats2=str_repeat("0",4-strlen($compteresultats2)).$compteresultats2; }
// On met la première lettre du titre en majuscules
$titre=ucfirst($titre);
// URL par défaut pour les fichiers
// On vire l'extension si besoin
if($montre_ext=="off" && $filetype!="img"){
$file=str_replace(".$ext","",$file); }
if($go2url==""){ $go_2_url="$d/$file"; }
else{
$go_2_url="$go2url";
$go_2_url=str_replace("[dossier]",$d,$go_2_url);
// je pense que c'est ici que ça coince
$go_2_url=str_replace("[fichier]",$file,$go_2_url); }
// Source du résultat
$src=" <a href=\"$go_2_url\">$titre</a> <br />
$resume
";
// On enregistre
$zeresults["1".$total_mots."".$p."".$compteresultats2]="$src";
// On remet a zéro histoire d'éviter des doublons
unset(
$compteresultats2,
$tout,
$resume,
$src,
$titre,
$filetype,
$p,
$p1,
$p2,
$file,
$ext,
$total_mots,
$register
);
}}
// On referme
// Sésame ferme toi
closedir($fp);
unset($tout,$filetype,$fp,$ext); }
// Si on a des résultats
// On les classe par ordre décroissant de pertinence
// Ensuite on lance un array_unshift() qui réindexe le tableau
// ce qui nous permet d'avoir des clés numériques et de gérer les résultats à partir de 1
// Pour de plus amples explications vous pouvez voir un peu plus haut
// ou me contacter, j'essaierai de vous expliquer ça en détail.
if($compteresultats>0){
krsort($zeresults);
array_unshift($zeresults,"rien"); }
// On définit les différentes variables qui serviront pour la barre de navigation
if($start=="1" && $compteresultats=="0" ){ $start="0"; }
$pourvoir=intval($start+$maxipage-1);
if($pourvoir>$compteresultats){ $pourvoir=$compteresultats; }
$finstart=intval($compteresultats-$maxipage+1);
$prevbarre=intval($start-$maxipage);
$nextbarre=intval($start+$maxipage);
$nb_barre="1";
$compte_affichage=$start;
// Changement du texte selon les résultats
// Entre singulier et pluriel
$rs=" résultat trouvé ";
$fich=" fichier";
if($compteresultats>1){ $rs=" résultats trouvés "; }
if($zetotal>1){ $fich=" fichiers"; }
// Maintenant on commence l'affichage
echo("Résultats de votre recherche pour <b>$pluxsearch2</b><br> $compteresultats $rs sur $zetotal $fich - Affichage des résultats $start à $pourvoir");
if($compteresultats>0){ echo("$form_recherche"); }
// On sélectionne les éléments du tableau de résultat à afficher et on les lance
if($compteresultats>0){
foreach($zeresults as $key=>$value){
if($key>=$start && $key<$nextbarre){
echo("<br><br>
$value");
$compte_affichage++; }} }
// Et si on a trop de résultats par rapport au nombre à afficher dans la page on met la barre de navigation
if($compteresultats>$maxipage){
echo("<p>");
if($start!="1"){
echo("<a href=\"engine.php?pluxsearch=$pluxsearch&action=go&choix=@$choix\"><< Début</a> <a href=\"engine.php?pluxsearch=$pluxsearch&action=go&start=$prevbarre&choix@=$choix\">< Page précédente</a> ("); }
else{ echo("<< Début < Page précédente ("); }
for($barre=1;$barre<$compteresultats;){
$finbarre=intval($compteresultats-$barre);
echo(" <a href=\"engine.php?pluxsearch=$pluxsearch&action=go&start=$barre&choix=@$choix\">$nb_barre</a> ");
$nb_barre++;
$barre=intval($barre+$maxipage); }
if($start<$finstart){ echo(") <a href=\"engine.php?pluxsearch=$pluxsearch&action=go&start=$nextbarre&choix=@$choix\">Page suivante ></a> <a href=\"engine.php?pluxsearch=$pluxsearch&action=go&start=$finstart&choix=@$choix\">Fin >></a>"); }
else{ echo(") Page suivante > Fin >>"); }
echo("</p>");
}
if($compteresultats=="0"){
echo("<p> Votre recherche sur le terme <b>$pluxsearch2</b> n'a donné aucun résultat. Essayez d'élargir votre recherche avec moins de mots.</p>");
}
else{
echo("<p align=\"center\"><br>$compteresultats $rs sur $zetotal $fich.</p>"); }
echo("$form_recherche");
?>
Il n'est pas bien conforme au plan XHTML, je m'y attèlerai plus tard.Merci pour votre aide, amicalement,
Bric
Connectez-vous ou Inscrivez-vous pour répondre.
Réponses
L'explode était la bonne piste. Tout fonctionne nickel.
$chaine = "$go_2_url";
$delimiteur = ".";
$tab = explode($delimiteur, $chaine); //decoupe
$un = $tab[1];
$deux = $tab[3];
$src="<a href=\"index.php?$un-$deux\">$titre</a><br />$resume";
Bonne soirée.