Jump to content

PDF Indexierung


Wandler
 Share

Recommended Posts

Eigentlich in keinster Weise SR spezifisch, aber gut möglich, dass das einer vor mir hier schon umgesetzt hat: Ich bin auf der Suche nach der komfortabelsten Art .pdfs zu Indexieren um so meine digitale Quellenbuchsammlung nach Stichwörtern zu durchsuchen. Ich möchte das aber nicht selbst schreiben (Apache Tika + ES) sondern hätte gerne fix fertige Software die das möglichst gut macht. Ein Traum wäre natürlich mit einer entsprechenden Vorschau des .pdfs um dann zu entscheiden ob das Vorkommen relevant oder nicht relevant ist für die aktuelle Thematik.

Mir ist bewusst, dass der Windows Explorer und auch Adobe Reader in Ordnern suchen können, aber das scheint eher eine ganz einfache vorwärtssuche zu sein, ich suche da schon ein größeres Kaliber im Format von "Search Everything" nur halt für pdf Inhalte (https://www.voidtools.com/faq/). Regex Support wäre toll ist aber nicht zwingend notwendig. Fuzzy Search wäre natürlich auch ein Hit um mit unterschiedlichen Schreibweisen umgehen zu können.
 

Does Everything search file contents?

Yes, "Everything" can search file content with the content: search function.

File content is not indexed, searching content is slow.

 

Open Source wäre bevorzugt, es darf aber gerne auch Bezahlsoftware sein so lange die Lizenz nicht mehrere hundert Euros kostet - das wäre mir das Spaßprojekt dann doch nicht wert.

Adobe Acrobat Pro scheint das zu können. Hat jemand damit Erfahrungen, gibt es kostengünstigere Alternaitven?

Edited by Wandler
  • Like 1
Link to comment
Share on other sites

Mittlerweile habe ich das allerdings nochmal vereinfacht und schreibe nur eine Textdatei je Quelle, wo aber die entsprechende Seitenzahl als Präfix in der Datei steht.

 

Einzelseiten erzeugen: pdftk (simpel: "pdftk burst")

Einzelseitentext erzeugen: pdftotext in einer Schleife

Präfix und Zusammenfassung in eine Datei: cat und sed

Edited by Loki
Link to comment
Share on other sites

 Share

×
×
  • Create New...