Submitted by Tigunn on
Bonjour,
J'ai installé Solr 3.6 avec Tika 1.3. J'ai un site drupal 7.15 avec les modules "search api solr integration", "facet api", "solr attachment".
Lors de mon premier essai avec ces modules, je n'avais pas installé "file entity". J'ai créé un index sur les noeuds: Texte et Icône (2 types de contenu); et j'ai coché la case Fichier en-dessous.
Ma config de Tika:
- extract using : Tika
- Tika directory : /var/opt/apache-solr-3.6.2/tika-app/
- Tika jar file : tika-app-1.3.jar
J'ai installé tika dans apache-solr.../tika-app/ et le test fonctionne. J'ai ré-indexé, mais la recherche plein texte ne fonctionnait pas.
Ensuite, j'ai trouvé un article qui conseillais d'utiliser file entity. Je l'ai donc installé et dans la configuration de l'index j'ai coché Fichier de type Image, audio, video et document. Là cela marche. pourquoi? comment?
Vous pouvez voir, resultats.jpg :
1 )
Pour l'exemple, j'ai un Texte qui a pour Titre: "test plein texte" et un fichier pdf contenant : "Test Trone de fer". SI je cherche le terme "test" alors le Texte et le pdf sont retournés séparément. Le snippet du fichier contient un lien vers le Texte. Cela donne 2 resultats, alors que je n'en voudrait qu'un.
2 )
Drupal est installe pour le groupe et l'user www-data.
Je lance solr avec Jetty: sudo java -jar start.jar. Solr est installe pour le groupe et l'utilisateur root.
Par contre, les résultats de type Document (=Fichier) ne sont affichés que si je fais la recherche avec le compte d'administration. Non connecté ou avec un autre rôle, les fichiers ne s'affichent pas dans les résultats. ? D'où cela peut venir ?
Tous les fichiers sont dans /files/transcriptions du meme groupe/user que drupal: www-data.
3 )
Pour une raison qui m'échappe aussi (une de plus , sigh), les .doc et .pdf sont "bien" indexé mais les html ne le sont pas . Evidemment, ce sont les plus fréquents.
En ligne de commande, si je teste:
java -jar [@chemin1]/tika-app-1.3.jar -h [@chemin]/test_court.html
Cela fonctionne.
Il faudrait que les fichiers html soient indexés.
Fichier attaché | Taille |
---|---|
resultats.JPG | 73.96 Ko |
Je réponds au 3ème point. Il
Permalien Soumis par Tigunn le 6 Mars, 2013 - 12:18
Je réponds au 3ème point. Il fallait ajouter les type mimes html (text/html) dans la configuration de "File Entity".
Plus que 2 / 3 !
Mettons que je passe sur le n°1; après tout si il ne répond pas tout à fait a ce que je souhaitais, il ne vas pas contre.
Mais il faudrai VRAIMENT que je trouve pourquoi seul le rôle admin peut voir les résultats de recherche de type fichier !
Merci de votre aide.
Je réponds au 2ème point. Il
Permalien Soumis par Tigunn le 6 Mars, 2013 - 16:32
Je réponds au 2ème point.
Il ne faut pas activer le module : apachesolr node access.
La solution provient de ce poste: http://drupal.org/node/1783766
Personne ne sait comment
Permalien Soumis par Tigunn le 3 Avril, 2013 - 09:52
Personne ne sait comment faire pour qu'un Noeud qui a pour Titre: "test plein texte" et un fichier pdf contenant : "Test Trone de fer" lié au noeud précédent, "test plein texte", ne retourne qu'un seul enregistrement et pas deux: 1 pour le noeud et un autre pour le fichier?
ALors que je voudrais que seul le noeud soit retourné.
Merci de votre aide :)
Bonjour,
Permalien Soumis par Damien LAGUERRE le 3 Avril, 2013 - 12:18
Bonjour,
Question plutôt complexe !
Je te dirais bien de ne simplement pas référencer tes fichiers pdf... Et de faire la liaison sur le node. Normalement selon ta configuration de solr tu devrait indexser le PDF en même temps que le node...
Mais je ne vois pas trop comment faire autrement...
Comment gère tu l'association des fichiers ? champ file ou entity_reference ?
Bonjour,
Permalien Soumis par Tigunn le 8 Avril, 2013 - 16:15
Bonjour,
J'ai crée un type de contenu : Texte (basé sur node) dans lequel j'ai des champs de type Fichier (champs File).
"Et de faire la liaison sur le node. Normalement selon ta configuration de solr tu devrait indexser le PDF en même temps que le node..." => c'est ben ce que j'aimerais faire mais je n'ai rien vu tel dans la config de solr ou du module sous drupal.
Saurais-tu où? :D