• @[email protected]OP
    link
    fedilink
    Deutsch
    62 years ago

    Gerade ausprobiert. (Musste erst ein wenig in etc rumspielen, weil imagemagick wohl nicht genug rechte zum bearbeiten von pdfs hat) Das Ergebnis ist tatsächlich besser. Allerdings bin ich nur an der Textausgabe interessiert und nicht an einer durchsuchbaren pdf.

    • @[email protected]
      link
      fedilink
      Deutsch
      12 years ago

      Dafür nehme ich pdftotext (glaube Teil von poppler).

      Aber für dich wäre es vermutlich schlauer über debug modus, /proc/…/cmdline oder quellcode die settings für tesseract rauszufinden, die pdfsandwich verwendet, damit du dein frontend entsprechen konfigurieren kannst.