SolR : fichiers dans les résultats de recherche généraux

Information importante

En raison d'un grand nombre d'inscriptions de spammers sur notre site, polluant sans relache notre forum, nous suspendons la création de compte via le formulaire de "sign up".

Il est néanmoins toujours possible de devenir adhérent•e en faisant la demande sur cette page, rubrique "Inscription" : https://www.drupal.fr/contact


De plus, le forum est désormais "interdit en écriture". Il n'est plus autorisé d'y écrire un sujet/billet/commentaire.

Pour contacter la communauté, merci de rejoindre le slack "drupalfrance".

Si vous voulez contacter le bureau de l'association, utilisez le formulaire disponible ici, ou envoyez-nous un DM sur twitter.

Bonjour,

Débutant sur le CMS Drupal je me suis lancé dans l'apprentissage de Drupal 7.

Je souhaite maintenant testé la recherche SolR pour Drupal.

Après de nombreuses recherches je pense avoir trouvé les éléments pour m'atteler à la tache.

L'objectif de la recherche est de pouvoir chercher sur les articles et sur les fichiers présents sur le site.
Les résultats de recherche pourront être filtrés par date de publication, type de contenus et sujets. Les tris se feront par pertinence, titre, type, date.

Pour les fichiers, j'ai trouvé plusieurs modules : Apache Solr Attachments (qui n'est pas encore en version stable), Search API attachments et Apache Solr File.

Mon objectif premier est que les résultats de recherche listent à la fois des articles et des fichiers. Est-ce possible ? J'ai trouvé des exemples de sites ou la recherche sur les fichiers est distincte de la recherche sur les articles.

De plus si c'est possible, comment pouvoir filtrer les résultats par fichiers pour n'avoir dans les résultats que des fichiers ?

Enfin savez-vous quel titre apparaît dans les résultats pour les fichiers ? le nommage du fichier (toto-toto.pdf) ou le titre dans les paramètres du fichier ?

Je vous remercie par avance pour votre aide

Phil

Version de Drupal : 

Re bonjour

Pour être peut être plus clair je tenais à ajouter quelques liens :

Mon objectif est que les résultats de recherche contiennent à la fois des articles et des fichiers comme ici http://www.oig.dot.gov/search/apachesolr_search/The%20Inspector%20Genera...

Je ne souhaite pas que les articles et les fichiers soient dissociés dans les résultats comme ici (voir les 2 onglets) http://www.defenseurdesdroits.fr/rechercher

Je précise que les fichiers seront visibles dans le corps des articles ou en colonne de droite dans des blocs.

Avec Drupal 7 est-ce possible ?

Merci à vous

Phil

Bonjour

Après une période de silence, je reviens vers vous après m'être décidé à installer SolR pour pouvoir répondre à mes interrogations.

Voci ma config sur Windows 7 :

  • Drupal 7.14 installé sur Wampserver 2.1
  • Tomcat 7.0 (apache-tomcat-7.0.27.exe)
  • SolR 3.6 (apache-solr-3.6.0.zip)

SolR se trouve dans C:/solr.

  • module Apache Solr Search Integration 7.x-1.x-dev.
  • module FacetAPI 7.x-1.x-dev.

Ca a était long, laborieux avant que tout fonctionne, mais ça fonctionne.

Je réussis à rechercher dans le contenu des articles (noeuds), à filtrer par date, type de contenus et sujets, faire des tris.

Je me suis mis ensuite en quête d'une solution pour indexer les fichiers. Il existe 3 modules :

Résultat :

J'ai réussi à faire fonctionner Apache Solr File 7.x-1.x-dev : en tapant "pdf" par exemple, des articles et des fichiers sont listés sur la page de résultats. le module indexe le nom du fichier dans SolR. Inconvénient : les liens des fichiers mènent vers une autre page monsite/file/iddufichier et le contenu du fichier n'est pas indexé.

Impossible d'essayer Search API attachments car je n'ai pas réussi à faire fonctionner Search API et Search API Solr search. A chaque fois que j'essayais d'indexer le contenu il y avait un message d'erreur.

Enfin impossible également d'indexer des fichiers avec Apache Solr Attachments 7.x-1.x-dev. Que ce soit en indexant avec SolR ou avec Tika.

Quand je fais une recherche seuls des articles apparaissent dans les résultats.

Pourtant Tika (apache-tika-1.1-src.zip) fonctionne bien. Je l'ai installé avec Maven 3.0.4 dans C:\temp\tika2. Et je parviens à extraire le contenu en faisant :

java -jar C:\temp\tika2\tika-app-1.1.jar -t C:\testPDF.pdf (via la console Dos).

J'ai ajouté le patch solrconfig.tika.patch présent dans le dossier du module Apache Solr Attachments :

<!-- An extract-only path for accessing the tika utility -->
  <requestHandler name="C:/temp/tika2" class="org.apache.solr.handler.extraction.ExtractingRequestHandler" startup="lazy">

   <lst name="defaults">
    </lst>
    <!-- This path only extracts - never updates -->
    <lst name="invariants">
      <bool name="extractOnly">true</bool>
    </lst>
</requestHandler>

dans solrconfig.xml (qui se trouve dans C:\solr\conf)

Dans l'admin Drupal admin/config/search/apachesolr/attachments j'ai choisi Tika comme solution d'extraction, J'ai mis C:/temp/tika2 dans "Réperoire de Tika " et tika-app-1.1.jar dans "Fichier jar de Tika".

Enfin toujours dans admin/config/search/apachesolr/attachments le test d'extraction Tika réussit : "Text can be succesfully extracted".

Auriez-vous des idées, des pistes pour solutionner mon problème avec Apache Solr Attachments et Tika ou proposer d'autres alternatives afin d'indexer les fichiers et leurs contenus et faire en sorte que la page résultat de recherche liste à la fois les articles et les fichiers ?

Par avance merci.

Apache

Je tiens à signaler ici plusieurs tutos forts utiles :

Bonjour

De retour pour vous faire part de mes tentatives infructueuses et lancer un SOS :-)

Afin de m'assurer que le fait que le module Apache Solr Attachments ne fonctionne pas ne provient pas d'un conflit avec un autre module, j'ai installé un nouveau site Drupal 7.14 avec :

  • module Apache Solr Search Integratio 7.x-1.x-dev
  • module FacetAPI 7.x-1.0-rc4

La recherche sur les articles s'effectuent parfaitement.

Par contre je suis toujours dans l'incapacité d'indexer des fichiers avec le module Apache Solr Attachments 7.x-1.1-beta1. Que ce soit avec SolR ou Tika pour l'extraction des fichiers.

J'ai même essayé avec SolR 3.5 et Tika 1.0 sans succès. Pourtant Tika fonctionne très bien avec le test :

java -jar C:\temp\tika3\tika-app\target\tika-app-1.0.jar -t C:\testPDF.pdf .

Que faire ? Wamp empêcherait il le bon fonctionnement de ce module ? un autre problème de time out, de cache ? faut-il attacher les fichiers aux articles d'une façon particulière ? ...

J'en appelle à la communauté : quelqu'un qui s'intéresse à SolR + Drupal 7 + Attachment, quelqu'un qui a déjà fait des essais pourrait-il me répondre ?

C'est très frustrant de coincer.

Merci à vous

Phil

Bonjour

Je reviens après un long silence durant lequel j'ai trouvé la solution sur Drupal.org

En fait Apache Solr Attachments ne fonctionnait pas avec Media. Un problème d'entity. Le créateur du module a donc corrigé ce bug, et tout fonctionne maintenant.

Voici mon post http://drupal.org/node/1632474
Et un autre sur le même sujet : http://drupal.org/node/1606978

Pour info une Recommended releases du module Apache Solr Attachments pour Drupal 7 vient de sortir.

A+

Phil