Problème indexation Solr

Submitted by T-MaK on 12 Mai, 2010 - 10:54

Bonjour à tous!

Je viens de déployer une Solr LAMP et Drupal pour pouvoir faire des recherche étendue aux contenus se trouvant dans les PDF. Tous semble fonctionner (tous les voyants au vert!) cependant aucune indexation n'est faite... Pourtant j'ai laissé tourner tous la nuit le cron avec Poormanscron (toute les heures il me semble...)

Y a-t-il une config que j'ai zappé?

Merci d'avance.

Forum :

Version de Drupal :

Tags :

En lancant le cron via drush

Permalien Soumis par T-MaK le 12 Mai, 2010 - 12:00

En lancant le cron via drush dans un terminal (sous linux pour ceux qui ne savent pas)
l'erreur suivante apparait :

 
WD Apache Solr: Indexing failed on one of the following nodes: 1, 2 "400" Status: Bad Request
Error 400

HTTP ERROR: 400ERROR:unknown field 'site' RequestURI=/solr/updatePowered by Jetty://

donc une erreur dans la requete s'est produite, à savoir le champs 'site' qu'il ne reconnait pas. Avec un peu de recherche j'ai trouvé ce champs dans schema.xml

Quelqu'un a-t-il une idée?

Edit: J'ai re-remplacé schema.xml et solrconfig.xml mais rien n'y fait... Lorsque je regarde les logs de Drupal, j'ai seulement cette erreur aussi...

Bon j'ai réussi à tout faire

Permalien Soumis par T-MaK le 12 Mai, 2010 - 12:42

Bon j'ai réussi à tout faire fonctionner!
J'ai simplement supprimé la ligne du champs "site".
Et redémarré le tout!

L'indexation est à 100% et a été envoyé au serveur Solr.

Edit: bon les PDF ne sont toujours pas pris en compte... J'ai mis 5 PDF de test seulement dans un champs CCK filefield. Je vais tester Apachesolr attachement et on verra bien...

Après avoir mis le module

Permalien Soumis par T-MaK le 12 Mai, 2010 - 14:18

Après avoir mis le module "ApacheSolr Attachements", j'ai maintenant une erreur lorsque je lance le cron :

Apache Solr: Error constructing documents to index: "404" Status: Not Found

Et ce, 5 fois de suite, ce qui semble correspondre au nombre de PDF que j'ai mis dans les contenu (rappel: CCK filefield).

Dans les logs de drupal à l'emplacement de l'erreur il y a l'url :

http://default/index.php

Je ne comprend pas d'où peut venir ce problème...

Si quelqu'un a déjà réussi à config tous ça, ce serait sympa de faire un retour sur ce qu'il a fait.

Bon j'ai mis de côté Solr et

Permalien Soumis par T-MaK le 12 Mai, 2010 - 17:43

Bon j'ai mis de côté Solr et j'ai mis Search_files qui marche super bien sous linux!

Bonjour ! Je dois indexer

Permalien Soumis par k_bouchek le 28 Juin, 2010 - 18:02

Bonjour !
Je dois indexer tous les documents sur mon site Drupal,
mais je suis sur un serveur mutualisé (Médialook) sous linux et donc
sans aucun accès me permettant d'installer les helpers..,
j'imagine que je dois demander à ce qu'on m'installe les "helpers"...
Est-il possible que tu me donnes quelques infos sur la démarche à suivre ?
Je dois leur demander quoi exactement à Médialook pour que search_file puisse
utiliser pdftotext et
catdoc ???
Suis paumé ! J'ai essayé quelques astuces, sans succès..
Merci beaucoup beaucoup !
Karim.

Salut ! Je n’ai pas testé

Permalien Soumis par T-MaK le 28 Juin, 2010 - 22:12

Salut!

Je n'ai pas testé sur un serveur mutualisé mais voici un HOWTO (en anglais):

http://patrickteglia.com/blog/setting-pdftotext-and-searchfiles-shared-h...

Au pire fais suivre au admin ce mini-HOWTO ;)

T-MaK

Merci ! C’est hyper cool de

Permalien Soumis par k_bouchek le 28 Juin, 2010 - 22:38

Merci ! C'est hyper cool de ta part !!!
J'avais fait la manip expliquée dans le lien, sans résultat,
j'ai fait exactement ce que tu m'as dit, j'ai fait suivre le lien, j'attends la réponse de l'admin ...
Merci encore !
c'est trop cool le net.
Karim.

Je ne sais pas si je suis

Permalien Soumis par k_bouchek le 29 Juin, 2010 - 02:35

Je ne sais pas si je suis clair :

1/ downloader la version précompilée xpdf-3.02pl4-linux.tar.gz sur <a href="http://www.foolabs.com/xpdf/download.html>foolabs.com

2/ en Extraire le dossier xpdf-3.02pl4-linux

3/ dans un répertoire quelconque du site( pour mes tests : sites/all/ ) uploader le fichier pdftotext ( qui ne porte aucune extention ) provenant de xpdf-3.02pl4-linux.

4/ créer un fichier que l'on nommera shellx.php ,
modifier et coller le code suivant dans shellx.php :

<?php
$output = shell_exec('pdftotext /home/*******/public_html/sites/default/files/2959.pdf -');
echo $output;
?>

où /home/*******/public_html/sites/default/files/ est le nom de malade renvoyé à peu de choses près par $_SERVER['SCRIPT_FILENAME'] , on changera la fin pour transformer en texte un pdf situé dans default/files/nom_du_pdf.pdf

5/ uploader le fichier shellx.php dans le même répertoire que le fichier pdftotext
et demander l'url http://nom_du_site.com/sites/all/shellx.php

Voilà à l'écran la copie texte du pdf.
Pas hyper clair, mais fonctionne en adaptant je pense.

Merci pour tout encore.
Bonne nuit !

Menu principal