Moteur de recherche

brica · avril 2007

Bonsoir,

Je suis en train de finaliser l'adaptation d'un script PHP pour un moteur de recherche qui serait adaptable à Pluxml.

Il est très rapide, affiche le titre de l'article et le passage contextuel du mot clef recherché. Il est possible de définir le nombre de résultats par page.

Mais j'ai un souci : je ne sais pas transformer le nom du fichier XML (par exemple : 0013.013.bolo.xml) en "13-bolo" qui le rendrait ainsi cliquable dans un lien figurant dans une liste de résultats.

Je subodore qu'il convient d'utiliser des regex, mais c'est au-dessus de mes forces.

Le code figure ci-après

<?php 
/* * * * * * * * * * * * * * * * * * * * * * *
			Moteur de recherche pour Pluxml
			Une adaptation par Bric de
			A Blork Engine v0.23b par zulios (2003)
* * * * * * * * * * * * * * * * * * * * * * */

//nombre de résultats par page
$maxipage="20";

// dossiers qui contiennent les articles à rechercher :
// notez : pas de / à la fin du chemin d'accès au dossier
$dossier=array( 
// "ce dossier"=>".",
"ce dossier"=>"core/xml",
); 

// rechercher dans les sous-dossiers ? on ou off.
$scan_sousdos="off";

// exlure certains fichiers :
$exclu=array(
"foo.php", 
"foo.gif", 
);

// Afficher les extensions
$montre_ext="off"; 

// URL à utiliser dans le moteur de recherche
$go2url="index.php?[fichier]";


// On adapte les variables selon la version de PHP 
$version_de_php=phpversion(); 
$version_de_php=str_replace(".","",$version_de_php); 
if($version_de_php>=410){ 
   @$action = $_GET['action']; 
   @$pluxsearch = $_GET['pluxsearch']; 
   @$start = $_GET['start']; 
   @$multi = $_GET['multi']; 
} 

// Liste des codes htmls spéciaux 
$caractere_special=array(
"à"=>"à",
"á"=>"á",
"â"=>"â",
"ã"=>"ã",
"ä"=>"ä",
"å"=>"å",
"æ"=>"æ",
"ç"=>"ç",
"è"=>"è",
"é"=>"é",
"ê"=>"ê",
"ë"=>"ë",
"î"=>"î",
"ï"=>"ï",
"ô"=>"ô",
"ö"=>"ö",
"ù"=>"ù",
"ú"=>"ú",
"û"=>"û",
"ü"=>"ü",
"&"=>"&",
); 


// Variables par défaut 

if(@$maxmots==""){ $maxmots="20"; } 
if(@$maxipage==""){ $maxipage="20"; } 
if(@$start=="" || $start=="0" ){ $start="1"; } 
$longueur_pluxsearch=strlen($pluxsearch); 
$pluxsearch=trim($pluxsearch); 
$pluxsearch=ereg_replace(" +", " ", $pluxsearch); 
$pluxsearch2=htmlspecialchars($pluxsearch); 

$form_recherche="<form method=\"get\"><p>Nouvelle recherche :<br />
<input type=\"hidden\" value=\"go\" name=\"action\">
<input type=text value=\"$pluxsearch2\" maxlength=50 size=25 name=pluxsearch>
<input type=submit value='Trouver !'></p>
</form>"; 

?>


<?php 

// On vérifie que la recherche est correctement lancée 

if($action!="go"){ echo("$form_recherche"); 
exit(); } 

// On vérifie la longueur de la recherche 

if($longueur_pluxsearch<3){ 
echo("<p>Votre recherche doit comporter au moins trois caractères.<br> $form_recherche</p>"); 
exit(); } 

// Résultats à 0 
$compteresultats="0"; 
$zetotal="0"; 


// Passage en minuscules de la recherche
$pluxsearch=strtolower($pluxsearch); 

// Maintenant on lance le scan classique sur les dossiers de la liste 
// Les sous-dossiers ont été rajoutés au besoin par la fonction précédente 

foreach($dossier as $nomdos=>$d){ 

 
// Sésame ouvre toi 

$fp=opendir("$d"); 
while($file = readdir($fp)){ 
if($file=="." || $file==".." || is_dir($file)){ continue; } 

// On ne scanne pas les fichiers exclus 
if(in_array($file, $exclu)){ continue; } 

// On récupère l'extension 
// Merci à Frédéric Bouchery pour ce regex :-) 
$ext = ereg_replace('^.*[.]([^.]*)$', '\\1', $file); 

// Sélection des extensions
// On ne scanne que ces types de fichiers 

if(
   $ext!="html" 
&& $ext!="htm" 
&& $ext!="xml" 
&& $ext!="php" 
&& $ext!="php3" 
&& $ext!="txt" 
&& $ext!="php4" 
&& $ext!="gif" 
&& $ext!="jpg" 
&& $ext!="png"){ continue; } 

// Maintenant on est sûr de devoir scanner le fichier
// On peut éxécuter tous les traitements nécessaires

// Détermination du type de fichier 
// On ne vérifiera que le nom des fichiers de type "img" (image) 
// alors que les fichiers de type "normal" seront entièrement retraités 
// car considérés comme contenant du texte lisible par le moteur. 

if($ext=="html" || $ext=="htm" || $ext=="php" || $ext=="php3" || $ext=="txt" || $ext=="xml" || $ext=="php4"){ 
$filetype="normal"; } else{ $filetype="img"; } 

// Maintenant qu'on a déterminé la place de notre fichier entre les deux types 
// On va appliquer des retraitements préliminaires sur les fichiers de type "normal" uniquement 
if($filetype=="normal"){ 

// On ouvre le contenu du fichier    

$recupere_le_fichier=fopen("$d/$file","r"); 
$tout=fread($recupere_le_fichier,500000); 
fclose($recupere_le_fichier); 

// Passage en minuscules 
$tout=strtolower($tout); 

// On vire le html et le php 
$tout=strip_tags($tout,'<title></title><script></script><head></head><style></style><infopost></infopost><chapo></chapo>'); 


// On récupère le titre du fichier 
// Ou alors on affiche le nom avec l'extension 
// Puis on supprime le titre pour ne pas fausser les résultats  

if(strpos($tout,"<title>") && strpos($tout,"</title>"))
{ 
$titre1=strstr($tout,'<title>'); 
$titre2=strstr($tout,'</title>'); 
$titre1=str_replace("$titre2","",$titre1); 
$titre1=str_replace("<title>","",$titre1); 
if($titre1==""){ $titre=$file; } else{ $titre=$titre1; }
}  
else{ 
$titre=$file; } 

$titre=strtolower($titre); 
unset($titre1, $titre2); 
$tout = preg_replace('`<title.*?/title>`', '', $tout); 


// 3 étapes ici : 

// Etape 1 -
// On effectue des remplacements pour pouvoir appliquer les regex : 
// 1- On remplace le saut de ligne par un espace 
// 3- Les   (code html pour une espace insécable) sont remplacés par des espaces 
// 4- Les doubles espaces sont remplacés par une simple espace 

// Etape 2- 
// On lance les regex 
// 1- On vire le code entre <head> et </head>
// 2- On vire le javascript pour éviter les bugs au cas ou une partie nous aurait échappée 
// 3- On vire les attributs de style pour les mêmes raisons 

// Etape 3- 
// On remplace le code html des accents et autres caractères spéciaux par le terme correspondant 
// pour le titre ET le contenu 


$tout = str_replace("\n"," ",$tout); 
$tout = str_replace(" "," ",$tout); 
$tout = str_replace("  "," ",$tout); 

$tout = preg_replace('`<head.*?/head>`', '', $tout); 
$tout = preg_replace('`<script.*?/script>`', '', $tout); 
$tout = preg_replace('`<style.*?/style>`', '', $tout); 

foreach($caractere_special as $caractere_code=>$caractere_traduction){ 
$tout = str_replace("$caractere_code","$caractere_traduction",$tout); 
$titre = str_replace("$caractere_code","$caractere_traduction",$titre); } 

// Fin du retraitement 
} 

// Maintenant le fichier a été retraité (si nécessaire), 
// on peut voir s'il contient ce qu'on cherche. 

// On incrémente le nb de fichiers scannés 
$zetotal++; 
if($zetotal>9999){ continue 2; } 

// Si on trouve la recherche 
if(strpos("$tout","$pluxsearch") || strpos("$file","$pluxsearch") || strpos("$titre","$pluxsearch")){ 

// Résultats +1 
$compteresultats++; 

// S'il s'agit d'un fichier de type "normal" 
if($filetype=="normal"){ 

// On compte les occurences du terme 
// Les occurences trouvées dans le titre comptent pour 10 (pire qu'au scrabble) car ils sont souvent explicites sur le contenu de la page 

@$total_mots=intval(substr_count($titre,$pluxsearch)*10+$total_mots); 
@$total_mots=intval(substr_count($tout,$pluxsearch)+$total_mots); 

// On crée la description 

$position=strpos($tout, $pluxsearch); 
$start_position=intval($position-50); 
if($start_position<0){ $start_position="0"; } 
$fin_position=intval($longueur_pluxsearch+100); 

if(@$position === FALSE ){ @$resume.="Terme exact introuvable dans le corps de l'article."; } 
else{ 
$resume="... "; 
$resume.=substr($tout, $start_position, $fin_position); 
$resume.=" ... "; 

// On met en gras le terme recherché dans la description 
$resume=str_replace($pluxsearch,"<b>$pluxsearch2</b>",$resume); }    

} 

// Si c'est une image ou un autre type de fichier 
// On adapte la description  
else{ $resume="Fichier $ext"; } 

// Puis dans le titre 
$titre=str_replace($pluxsearch,"<b>$pluxsearch2</b>",$titre); 


// Calcul du pourcentage de pertinence 

similar_text($pluxsearch, $tout, $p1); 
similar_text($pluxsearch, $titre, $p2); 
$p=intval($p1+$p2); 

// Si le pourcentage est supérieur ou égal à 100 on le ramène à 99 
// Et s'il est égal à 0 on le ramène à 1 pour qu'il puisse être réindexé (voir suite) 

if($p>=100){ $p="99"; } 
if($p=="0"){ $p="1"; } 

// On va créer une clé identique pour chaque résultat.
// Le premier sera un "1", pour que la clé soit réindexée 
// Le suivant sera le nombre d'occurences total de mots trouvés (en dizaines) 
// Ensuite le pourcentage de similarité du texte + celui du titre (deux chiffres) 
// Enfin le numéro du résultat (4 chiffres) 
// Avec cette clé on pourra classer les résultats par ordre décroissant selon le chiffre obtenu, donc par pertinence. 

// Notes : 
// La clé ne doit pas commencer par 0 donc il était important de mettre en premier 
// un "1", ou un chiffre supérieur à 0 en tout cas.
// La clé ne doit pas être supérieure à 8 chiffres, sinon elle ne sera pas réindexée. 

// Cette bidouille me permettra par la suite avec array_unshift() de réindexer le tableau avec 
// des clés numériques pour pouvoir afficher uniquement les résultats souhaités, donc j'économise 
// du temps d'éxécution et des ressources par rapport à l'ancienne méthode qui consistait à créer
// un nouveau tableau. L'array_unshift() me rajoutera une valeur de clé 0 que je ne supprime pas 
// parce que je pourrai ainsi gérer mes résultats à partir de 1, ce qui est plus logique. 

// On ramène les occurences au maxi à 99 
// Puis on rajoute un 0 devant le chiffre s'il est inférieur à 10 
// Enfin on ne garde que le chiffre des dizaines 

if($total_mots>=100){ $total_mots="99"; } 
if (strlen($total_mots)==1){ 
$total_mots=str_repeat("0",2-strlen($total_mots)).$total_mots; } 
$total_mots=substr($total_mots, 0, 1); 

// Idem pour les pourcentages 

if (strlen($p)==1){ 
$p=str_repeat("0",2-strlen($p)).$p; } 

// Et enfin le numéro du résultat 

$compteresultats2=$compteresultats; 
if (strlen($compteresultats2)<4){ 
$compteresultats2=str_repeat("0",4-strlen($compteresultats2)).$compteresultats2; } 


// On met la première lettre du titre en majuscules 
$titre=ucfirst($titre); 


// URL par défaut pour les fichiers 

// On vire l'extension si besoin 
if($montre_ext=="off" && $filetype!="img"){ 
$file=str_replace(".$ext","",$file); } 

if($go2url==""){ $go_2_url="$d/$file"; } 
else{ 
$go_2_url="$go2url";
$go_2_url=str_replace("[dossier]",$d,$go_2_url); 
// je pense que c'est ici que ça coince
$go_2_url=str_replace("[fichier]",$file,$go_2_url); } 

// Source du résultat 
$src=" <a href=\"$go_2_url\">$titre</a> <br />
$resume

"; 

// On enregistre 
$zeresults["1".$total_mots."".$p."".$compteresultats2]="$src"; 

// On remet a zéro histoire d'éviter des doublons  
unset(
$compteresultats2,
$tout,
$resume,
$src,
$titre,
$filetype,
$p,
$p1,
$p2,
$file,
$ext,
$total_mots,
$register
); 

}}   


// On referme 
// Sésame ferme toi 

closedir($fp); 
unset($tout,$filetype,$fp,$ext); } 


// Si on a des résultats
// On les classe par ordre décroissant de pertinence 
// Ensuite on lance un array_unshift() qui réindexe le tableau 
// ce qui nous permet d'avoir des clés numériques et de gérer les résultats à partir de 1
// Pour de plus amples explications vous pouvez voir un peu plus haut 
// ou me contacter, j'essaierai de vous expliquer ça en détail. 

if($compteresultats>0){ 
krsort($zeresults); 
array_unshift($zeresults,"rien"); } 

// On définit les différentes variables qui serviront pour la barre de navigation 

if($start=="1" && $compteresultats=="0" ){ $start="0"; } 
$pourvoir=intval($start+$maxipage-1);
if($pourvoir>$compteresultats){ $pourvoir=$compteresultats; } 
$finstart=intval($compteresultats-$maxipage+1); 
$prevbarre=intval($start-$maxipage);
$nextbarre=intval($start+$maxipage); 
$nb_barre="1"; 
$compte_affichage=$start; 


// Changement du texte selon les résultats 
// Entre singulier et pluriel 

$rs=" résultat trouvé ";
$fich=" fichier"; 
if($compteresultats>1){ $rs=" résultats trouvés "; }
if($zetotal>1){ $fich=" fichiers"; } 


// Maintenant on commence l'affichage 

echo("Résultats de votre recherche pour <b>$pluxsearch2</b><br> $compteresultats $rs sur $zetotal $fich - Affichage des résultats $start à $pourvoir");   

if($compteresultats>0){ echo("$form_recherche"); } 


// On sélectionne les éléments du tableau de résultat à afficher et on les lance 

if($compteresultats>0){ 
foreach($zeresults as $key=>$value){ 
if($key>=$start && $key<$nextbarre){ 

echo("<br><br>
$value"); 

$compte_affichage++; }}  }


// Et si on a trop de résultats par rapport au nombre à afficher dans la page on met la barre de navigation 

if($compteresultats>$maxipage){ 

echo("<p>"); 

if($start!="1"){ 
echo("<a href=\"engine.php?pluxsearch=$pluxsearch&action=go&choix=@$choix\"><< Début</a> <a href=\"engine.php?pluxsearch=$pluxsearch&action=go&start=$prevbarre&choix@=$choix\">< Page précédente</a> ("); }
else{ echo("<< Début < Page précédente ("); }

for($barre=1;$barre<$compteresultats;){ 
$finbarre=intval($compteresultats-$barre); 
echo(" <a href=\"engine.php?pluxsearch=$pluxsearch&action=go&start=$barre&choix=@$choix\">$nb_barre</a> "); 
$nb_barre++; 
$barre=intval($barre+$maxipage); } 

if($start<$finstart){ echo(") <a href=\"engine.php?pluxsearch=$pluxsearch&action=go&start=$nextbarre&choix=@$choix\">Page suivante ></a> <a href=\"engine.php?pluxsearch=$pluxsearch&action=go&start=$finstart&choix=@$choix\">Fin >></a>"); } 
else{ echo(") Page suivante >  Fin >>"); } 

echo("</p>"); 

} 

if($compteresultats=="0"){ 
echo("<p> Votre recherche sur le terme <b>$pluxsearch2</b> n'a donné aucun résultat. Essayez d'élargir votre recherche avec moins de mots.</p>"); 
} 
else{ 
echo("<p align=\"center\"><br>$compteresultats $rs sur $zetotal $fich.</p>"); } 

echo("$form_recherche"); 

?>

Il n'est pas bien conforme au plan XHTML, je m'y attèlerai plus tard.

Merci pour votre aide, amicalement,
Bric

Skyline · avril 2007

Avec cette fonction http://fr2.php.net/manual/fr/function.explode.php tu peux facilement découper les différentes parties du nom du fichier pour ensuite les assembler suivant la forme que tu veux

fightsoul · avril 2007

Euh http://forum.pluxml.org/viewtopic.php?id=526

brica · avril 2007

Merci Skyline...

L'explode était la bonne piste. Tout fonctionne nickel.

$chaine = "$go_2_url";
$delimiteur = ".";
$tab = explode($delimiteur, $chaine); //decoupe
$un = $tab[1];
$deux = $tab[3];
$src="<a href=\"index.php?$un-$deux\">$titre</a><br />$resume";

Bonne soirée.

Moteur de recherche

Réponses