Wandler Posted January 30, 2021 Report Share Posted January 30, 2021 (edited) Eigentlich in keinster Weise SR spezifisch, aber gut möglich, dass das einer vor mir hier schon umgesetzt hat: Ich bin auf der Suche nach der komfortabelsten Art .pdfs zu Indexieren um so meine digitale Quellenbuchsammlung nach Stichwörtern zu durchsuchen. Ich möchte das aber nicht selbst schreiben (Apache Tika + ES) sondern hätte gerne fix fertige Software die das möglichst gut macht. Ein Traum wäre natürlich mit einer entsprechenden Vorschau des .pdfs um dann zu entscheiden ob das Vorkommen relevant oder nicht relevant ist für die aktuelle Thematik.Mir ist bewusst, dass der Windows Explorer und auch Adobe Reader in Ordnern suchen können, aber das scheint eher eine ganz einfache vorwärtssuche zu sein, ich suche da schon ein größeres Kaliber im Format von "Search Everything" nur halt für pdf Inhalte (https://www.voidtools.com/faq/). Regex Support wäre toll ist aber nicht zwingend notwendig. Fuzzy Search wäre natürlich auch ein Hit um mit unterschiedlichen Schreibweisen umgehen zu können. Does Everything search file contents?Yes, "Everything" can search file content with the content: search function.File content is not indexed, searching content is slow. Open Source wäre bevorzugt, es darf aber gerne auch Bezahlsoftware sein so lange die Lizenz nicht mehrere hundert Euros kostet - das wäre mir das Spaßprojekt dann doch nicht wert.Adobe Acrobat Pro scheint das zu können. Hat jemand damit Erfahrungen, gibt es kostengünstigere Alternaitven? Edited January 30, 2021 by Wandler 1 Link to comment Share on other sites More sharing options...
Loki Posted January 30, 2021 Report Share Posted January 30, 2021 Falls du es doch selbst schreiben musst: https://shadowhelix.de/Benutzer:Loki/Recherchehilfe:_Globale_Textsuche 2 Link to comment Share on other sites More sharing options...
Wandler Posted January 30, 2021 Author Report Share Posted January 30, 2021 Falls du es doch selbst schreiben musst: https://shadowhelix.de/Benutzer:Loki/Recherchehilfe:_Globale_TextsucheHerzliche Dank Loki. Bist ein Schatz! Link to comment Share on other sites More sharing options...
Loki Posted January 30, 2021 Report Share Posted January 30, 2021 (edited) Mittlerweile habe ich das allerdings nochmal vereinfacht und schreibe nur eine Textdatei je Quelle, wo aber die entsprechende Seitenzahl als Präfix in der Datei steht. Einzelseiten erzeugen: pdftk (simpel: "pdftk burst") Einzelseitentext erzeugen: pdftotext in einer Schleife Präfix und Zusammenfassung in eine Datei: cat und sed Edited January 30, 2021 by Loki Link to comment Share on other sites More sharing options...
Recommended Posts