mercredi 5 janvier 2011

Quelques nouvelles du projet de site de référencement des ventes de livres anciens mené par Yohann et son groupe d'amis

Amis Bibliophiles bonjour,

Dans son portrait sur le blog, Yohann (http://bibliophilie.blogspot.com/2010/11/portrait-de-bibliophile-yohann.html) nous avait présenté son projet de site de référencement des ventes de livres anciens. Il nous fera visiter les coulisses de ce site au fil des mois et nous propose aujourd'hui un 2ème message sur le projet.

"Qui est ce petit groupe de bibliophiles?

A l’origine du projet, ma petite personne qu’Hugues a présentée dans un précédent post, ainsi que 2 autres amis ingénieurs bibliophiles comme moi. Certains amis juristes ou littéraires, nous accompagnent de leurs conseils.

Comme déjà exprimé notre objectif n’est pas commercial, nous souhaitons réaliser un outil utile et le plus perfectionné possible, cela sur notre temps libre. A trois, nous avons à l’originalité de cumuler 4 nationalités différentes ( FR, DE, GB, AU ),et nous essaierons donc à terme de communiquer en trois langues. Le plus âgé d’entre nous a 36 ans.

Le projet:

Le cœur du système est un moteur de recherche récupérant sur le site Web que nous créerons les informations suivantes :
-         livres ventes à venir
-         livres ventes passées, résultats – (essentiel)
-         livres issus des catalogues du XVIII & XIX & début XX
  
Objectifs fonctionnels :
A – Recherche de lots ( ventes passées, ventes futures )
Nous souhaitons avoir deux types de recherches différentes :
1- La recherche classique par mot clef : qui a le défaut de souvent faire sortir trop de résultats
2- Une recherche sur des champs plus précis avec critères s’additionnant ou s’excluant (comme chez Google par exemple) sur des champs :
-         auteur
-         titre
-         année d’édition
-         reliure
-         armoiries
-         état
-         (autres ? – si des champs paraissent essentiels à vos lecteurs, qu’ils n’hésitent pas)

B – Serendipte ( ventes futures ):
Nous souhaitons, sur la base des recherches que les lecteurs feront; pouvoir identifier pour eux des livres dans les ventes futures correspondant aux thèmes ou critères de recherche, et  automatiquement présenter des lots qu’ils n’auraient pas eu l’idée de chercher. Tous les ouvrages mis en vente par les SVV seront automatiquement classés dans une dizaine de catégories (analyse sémantique) pour permettre à partir des IP de nos lecteurs de leur proposer des ouvrages équivalents aux thèmes des recherches réalisées.

C’est une démarche franchement nouvelle, utile pour les ventes futures, donc pour les SVV.

C – Alertes ( ventes futures ):
Même principe qu’en 1 : alerte utilisant des association de mots clef pour éviter les messages d’alertes intempestifs.

D – Publication:
Publier sur une base bi annuelle un état du marché sur des bases statistiques très larges, et analyser de manière très fine l’évolution du marche par catégories de livres. Et pourquoi pas trouver même des corrélations avec des événements théoriquement indépendants.

Et nous pourrions même rêver qu’ebay nous donne accès à sa base de descriptif de livres et aux prix de vente réalisés, il y a là un marché parallèle que je me ferai un plaisir d’étudier, allez, c’est un appel, si Yann Russo Pdg d’Ebay France me lis : je suis à sa dispo ;-)

E – Fonctionnalité amusantes:
Intégration dans l’affichage des résultats des données revalorisées (érosion monétaire, ou même conversion Frc OR -> Euro)

Mais tout projet a naturellement ses contraintes qui rendent le sujet plus ou moins réalisable.
Quelles sont-elles ? :

Les contraintes des maisons de ventes:

1 – Obtenir l’autorisation des maisons de ventes de diffuser leurs catalogues de vente sur notre moteur de recherche de lots: nous publierons les ventes si elles nous donnent les résultats.
2 – Récupérer le plus possible de résultats  - VALIDES  (certaines SVV sont cachottières, ou un peu trop créatives, et je pense que ça leur coûte quelques vendeurs)
3 – Obtenir un accord pour scanner + OCR leurs stocks d’anciens catalogues (ceux que nous ne disposons pas)

Contraintes techniques:

1 – Automatisation de la segmentation par lot de tous les textes brut issus des catalogues que nous avons (sources pdf, images scannées, word, etc) – c’est une étape nécessaire si vous voulez chercher un lot avec 2 mots clef par exemple au milieu d’un document de 500 pages. Sans cela vous vous retrouveriez avec des champs réponses pouvant s’étendre sur des centaines de lots, donc ne rien obtenir.
2 – Association automatisée des images issues des catalogues avec les descriptifs, en effet tant que nous partons de fichier scannés ou pdf, les images perdent le nom sous lequel elles sont enregistrées, et qui permet l’association automatique à un lot.
3 – Programmer l’analyse sémantique de tous les lots permettant de classifier chaque lot pour :
- être utilisé par le moteur de recherche spécialisé livres
- être utilisé à terme pour l’outil de serendipité
4 – Reconnaissance d’écriture pour les ouvrages du XVIII, ( les f ne sont pas reconnus, et la typographie ancienne passe mal dans les outils OCR actuels ), lorsque vous affichez par exemple le catalogue de la pompadour avec Google option texte brut : ca laisse rêveur...  et c'est ce point qui sera réellement le plus problématique.

Contraintes financières:

Ca tombe bien, presque aucune ;-), juste ENORMEMENT de TEMPS. A terme nous pensons faire payer une cotisation annuelle très faible (mettons 30/40€ ) pour avoir accès aux résultats de ventes anciennes ainsi qu’à toutes les données historiques que nous aurons triées, et d’ailleurs quand le moment sera venu j’aimerai faire voter les lecteurs du blog pour identifier un prix juste.

Si nous obtenons 100 adhérents, nous devrions générer suffisamment d’argent pour sous-traiter le scan + OCR de 10 à 20000 pages par an sur des machines professionnelles.

Appel aux lecteurs du blog :

Si notre projet vous intéresse, vous pouvez nous aider de 3 manières :
-   en parler aux SVV que vous connaissez et qui organisent des ventes de livres, notre service sera totalement gratuit pour les SVV nous envoyant leur catalogues pdf ou word + photo et résultats (peu importe le format) : nous connaissons assez bien le milieux parisien, mais sommes malheureusement assez déconnecté des autres régions de France

-    Si vous disposez de stock catalogues sous format numériques ( doc, pdf ou même photographies  de pages de catalogues ) cela nous intéresse, nous pourrions peut-etre vous apporter notre outils informatique pour rendre vos doc utilisables ( classif, isolation des lots ), et donc utiliser vos documents sur notre base.
  
-   Idem pour les stock de catalogues physiques dans un second temps.

C'est, vous le constatez, un gros projet, qui d’un point de vue technique est franchement intéressant (de mon point de vue d’ingénieur éduqué avec le we ), le sujet est forcément passionnant puisqu’il s’agit de bibliophilie.

A titre personnel, j’espère sincèrement que certains des lecteurs prendrons contact, ca nous confirmera que l’investissement personnel que nous sommes en train de réaliser est vraiment utile.

J’espère ne pas vous avoir trop ennuyé avec ce long descriptif, et si c’est le cas, je ferai beaucoup plus court, dans les prochains post.

Lorsque la base de test sera disponible, je vous proposerai de l’utiliser et de développer en fonction des conseils et suggestions de chacun, un projet collaboratif."

Merci Yohann
H

12 commentaires:

  1. Yohann sait déjà que je suis à sa disposition pour lui fournir documents, aide, ou conseils (point de vue du libraire ET du bibliophile),

    je crois beaucoup en ce projet,
    à vous de jouer !

    Amitiés bibliophiles,
    Bertrand Bibliomane moderne

    RépondreSupprimer
  2. Génial, j'ai pensé à cet outil et le souhaite depuis longtemps, sans avoir les compétences techniques... Alors bravo, vous avez tout mon soutien, ainsi que l'appui possible de mes 2750 catalogues ;-)

    RépondreSupprimer
  3. Je vois vos nouveautés, elles sont ambitieuses. Mais avez-vous déjà consulté le très cher CD Artprice ?
    "CD-ROM Argus du Livre de Collection 1991-2006". On y retrouve déjà facilement les prix et descriptions sur 15 ans, par une recherche en "texte libre" puissante. C'est extrêmement complet. Auction.fr plus modeste, & moins cher, présente une bonne partie des ventes et des photos des catalogues. (En accord avec les maisons.) En gros, voulez-vous faire gratuit ? êtes-vous prêts à vous heurter à ces acteurs installés ? & possédant un large réseau (de nombreuses maisons, couvrant l'ensemble du marché de l'art)... Songeriez-vous à les impliquer ou à trouver des partenaires "installés" ?
    Amicalement
    JC.

    RépondreSupprimer
  4. À la disposition de Yohann and co, 1,1 Go de catalogues anciens (principalement récupérés sur GB, format image, pas de recherche de mot-clé possible), et 1,6 Go de catalogues de maisons de vente de 2000 à 2010, certains (mais pas tous !), avec leur prix d'adjudication. Une adresse ou un mail ?

    RépondreSupprimer
  5. Je crois que comme tout le monde ça m'intéresse. Je peux en toucher un mot SVV que je fréquente (Sud-Ouest). Hugues a mon adresse.

    Juste une question : quid des livres ravalés sous la forme d'adjudication à des acheteurs qui n'existent pas? J'avoue ne pas savoir s'ils apparaissent comme adjugés dans les compte-rendus des SVV. Je pense qu'ils le doivent puisqu'on peut réclamer d'acheter tout lot qui n'aurait pas trouvé preneur à son prix de mise en vente initial à ce même prix. D'un point de vue juridique je pense que ces livres (ou tout autre objet) doivent être réputés vendus. Donc apparaître dans les bilans.
    Cordialement,
    Olivier

    RépondreSupprimer
  6. Hello,

    Ces quelques lignes pour commenter vos commentaires.
    Je prends bien note des propositions concernant les catalogues, Benoit : ce sera très utile, Hugues pourrait vous transmettre sur demande mon mail perso pour qu'on trouve un moyen de tranferer le fichier par FTP, et puis ca pourra toujours donner l'occasion d'echange d'info avec d'autres passionnés

    Les fausses adjudications sont un pb, on ne le detectera que si c'est érigé en systeme, ( decorelation statistique des vendus versus la moyenne par type / region - a etudier je vais reflechir au modele math + comment utiliser les categorisations que nous mettons en place ) la comparaison avec les bilans déclarés malheureusement n'a d'interet qu'avec les svv specialistes , et encore comme les frais vendeurs sont negociables on ne peut mm pas etre sur de pouvoir recalculer le CA réel.
    Pour l’argus je ne le connais pas trop, mais comme vous le dites, ils s’arrêtent en 2006…, et puis je me suis toujours demandé comment ils rentraient 1000 a 2000 catalogues dans leur version papier.

    Votre remarque concernant auction, me parait assez juste, je vous cache pas que je trouve que c’est un site vraiment bien, mais nous essayerons de faire mieux pour notre domaine à tous.

    Maintenant pour une SVV ce peut être une bonne chose d’avoir des modèles différents pour diffuser l’ info ( un service gratuit, quoi de mieux ;-)

    De toutes les manières nous nous lançons, et notre objectif est de faire du mieux que nous pourrons

    Olivier votre offre m'interesse donc.


    Cordialement,

    Yohann

    PS : Bertrand, je m'attaque des ce soir à vos 47000 n° du Morgand,je vous tiens au courant.

    RépondreSupprimer
  7. Le projet et passionnant et aura nécessairement du succès s'il apporte un plus par rapport à l'existant.

    Vous allez vous heurter, je pense, aux sites en place, plus qu'aux SVV qui ont intéret à la publicité maximale sur les ventes futures (Evidemment si vous voulez vous attaquer à leur bilan, c'est une autre histoire ...:))

    Sur les catalogues en ligne consolidés, c'est AddAll qui me parait aujourd'hui le site le plus fiable pour avoir des historiques, mais ils doivent avoir protègé leur copyright.

    Pour les ventes passées et futures, j'utilise un vieux site, sans doute un peu dépassé aujourd'hui puisqu'il a plus de 10 ans, c'est bibliorare, qui est basé en Bretagne. Interessant pour les historiques. Vous avez sans doute déjà contacté son administrateur.

    T

    RépondreSupprimer
  8. @ Olivier, parce que connaître la législation des ventes est utile : sauf erreur de ma part, une SVV n'est absolument pas tenue, pour les lots ravalés, d'accepter offre à l'est. basse. Elle peut accepter, si elle le veut, des offres appelés "after-sale", à sa libre appréciation et à celle du vendeur. Enfin c'est ce que je crois savoir, je vais d'ailleurs vérifier. D'autre part, les lots ravalés sont signalés comme tels, que ce soit dans les PDF, comme dans la Gazette, etc.
    Et pour finir, encouragements à notre courageuse équipe d'ingé transnationale, qui va se frotter à bien des inimitiés, des concurrents, et des grincheux. Beaucoup n'ont pas du tout intérêt à favoriser un outil qui ait trop de mémoire et qui permette estimation trop aisée... Cherchez des soutiens parmi les priseurs et les experts... Bonne journée !

    RépondreSupprimer
  9. @ Benoît je ne confonds pas lot non adjugé (n'ayant pas trouvé preneur à son prix de mise aux enchères) et lot ravalé (artificiellement porté, mais sans succès, à la limite basse fixée avec le vendeur). Sauf à croire que les commissaires priseurs ne connaissent pas leur réglementation et pour l'avoir vu plusieurs fois vous pouvez acheter un lot non adjugé à son prix de mise aux enchères.
    Après c'est une déduction de pure logique et non de juriste (que je ne suis pas) que je faisais : un lot ravalé doit être réputé (juridiquement) vendu. D'un point de vue comptable c'est sans doute autre chose.

    RépondreSupprimer
  10. Olivier, avez-vous vu que votre parchemin a été "authentifié"?
    :)
    Hugues

    RépondreSupprimer
  11. bonjour,
    joli projet plein de complications juridiques et d'inimitiés en tout genre... quand je souhaite un livre, je tape son titre sur google et je regarde ou il est en vente à quel prix et je compare... sans avoir besoin de sites spécialisés. Les bonnes affaires sont pour tout le monde; il faut prendre suffisament de précautions avant d'acheter;, voir se déplacer;
    Et surtout je n'ai pas envie que ma transaction reste archivée, ni qu'on me propose sur un plateau ce qui fait mon goût; Le temps de recherche et de decouverte est aussi important que la trouvaille en elle même. Sous le titre de gratuit... non commercial, j'entends pourtant gain de temps et buisness;
    pas bibliophilie, même si cela rime avec argent, parce que à trés haut niveau, c'est comme ça.
    Cordialement et
    Bon courage.

    RépondreSupprimer
  12. Bah non pas vu. J'aurais dû? Mais où?
    Olivier

    RépondreSupprimer