Problème indexation Solr

Information importante

En raison d'un grand nombre d'inscriptions de spammers sur notre site, polluant sans relache notre forum, nous suspendons la création de compte via le formulaire de "sign up".

Il est néanmoins toujours possible de devenir adhérent•e en faisant la demande sur cette page, rubrique "Inscription" : https://www.drupal.fr/contact


De plus, le forum est désormais "interdit en écriture". Il n'est plus autorisé d'y écrire un sujet/billet/commentaire.

Pour contacter la communauté, merci de rejoindre le slack "drupalfrance".

Si vous voulez contacter le bureau de l'association, utilisez le formulaire disponible ici, ou envoyez-nous un DM sur twitter.

Bonjour à tous!

Je viens de déployer une Solr LAMP et Drupal pour pouvoir faire des recherche étendue aux contenus se trouvant dans les PDF. Tous semble fonctionner (tous les voyants au vert!) cependant aucune indexation n'est faite... Pourtant j'ai laissé tourner tous la nuit le cron avec Poormanscron (toute les heures il me semble...)

Y a-t-il une config que j'ai zappé?

Merci d'avance.

Version de Drupal : 

En lancant le cron via drush dans un terminal (sous linux pour ceux qui ne savent pas)
l'erreur suivante apparait :


WD Apache Solr: Indexing failed on one of the following nodes: 1, 2 "400" Status: Bad Request

Error 400

HTTP ERROR: 400ERROR:unknown field 'site'
RequestURI=/solr/updatePowered by Jetty://

donc une erreur dans la requete s'est produite, à savoir le champs 'site' qu'il ne reconnait pas. Avec un peu de recherche j'ai trouvé ce champs dans schema.xml

Quelqu'un a-t-il une idée?

Edit: J'ai re-remplacé schema.xml et solrconfig.xml mais rien n'y fait... Lorsque je regarde les logs de Drupal, j'ai seulement cette erreur aussi...

Bon j'ai réussi à tout faire fonctionner!
J'ai simplement supprimé la ligne du champs "site".
Et redémarré le tout!

L'indexation est à 100% et a été envoyé au serveur Solr.

Edit: bon les PDF ne sont toujours pas pris en compte... J'ai mis 5 PDF de test seulement dans un champs CCK filefield. Je vais tester Apachesolr attachement et on verra bien...

Après avoir mis le module "ApacheSolr Attachements", j'ai maintenant une erreur lorsque je lance le cron :

Apache Solr: Error constructing documents to index: "404" Status: Not Found

Et ce, 5 fois de suite, ce qui semble correspondre au nombre de PDF que j'ai mis dans les contenu (rappel: CCK filefield).

Dans les logs de drupal à l'emplacement de l'erreur il y a l'url :

http://default/index.php

Je ne comprend pas d'où peut venir ce problème...

Si quelqu'un a déjà réussi à config tous ça, ce serait sympa de faire un retour sur ce qu'il a fait.

Bonjour !
Je dois indexer tous les documents sur mon site Drupal,
mais je suis sur un serveur mutualisé (Médialook) sous linux et donc
sans aucun accès me permettant d'installer les helpers..,
j'imagine que je dois demander à ce qu'on m'installe les "helpers"...
Est-il possible que tu me donnes quelques infos sur la démarche à suivre ?
Je dois leur demander quoi exactement à Médialook pour que search_file puisse
utiliser pdftotext et
catdoc ???
Suis paumé ! J'ai essayé quelques astuces, sans succès..
Merci beaucoup beaucoup !
Karim.

Merci ! C'est hyper cool de ta part !!!
J'avais fait la manip expliquée dans le lien, sans résultat,
j'ai fait exactement ce que tu m'as dit, j'ai fait suivre le lien, j'attends la réponse de l'admin ...
Merci encore !
c'est trop cool le net.
Karim.

Je ne sais pas si je suis clair :

1/ downloader la version précompilée xpdf-3.02pl4-linux.tar.gz sur <a href="http://www.foolabs.com/xpdf/download.html>foolabs.com

2/ en Extraire le dossier xpdf-3.02pl4-linux

3/ dans un répertoire quelconque du site( pour mes tests : sites/all/ ) uploader le fichier pdftotext ( qui ne porte aucune extention ) provenant de xpdf-3.02pl4-linux.

4/ créer un fichier que l'on nommera shellx.php ,
modifier et coller le code suivant dans shellx.php :

<?php
$output
= shell_exec('pdftotext /home/*******/public_html/sites/default/files/2959.pdf -');
echo
$output;
?>

où /home/*******/public_html/sites/default/files/ est le nom de malade renvoyé à peu de choses près par $_SERVER['SCRIPT_FILENAME'] , on changera la fin pour transformer en texte un pdf situé dans default/files/nom_du_pdf.pdf

5/ uploader le fichier shellx.php dans le même répertoire que le fichier pdftotext
et demander l'url http://nom_du_site.com/sites/all/shellx.php

Voilà à l'écran la copie texte du pdf.
Pas hyper clair, mais fonctionne en adaptant je pense.

Merci pour tout encore.
Bonne nuit !