Skip to main content

Sprachpakete hinzufügen

In der Grundinstallation verfügt Stirling-PDF nur über das englischsprachige Paket für die Texterkennung.

Um bspw. deutschsprachige Texte verarbeiten zu können, bedarf es somit weiterer Sprachpakete.

Die optionalen Sprachpakete befinden sich unterhalb des Installationsverzeichnisses (hier /srv/stirling) im Verzeichnis trainingData.
Daher wird zunächst in dieses Verzeichnis gewechselt, das nach der Installation noch leer ist:

05a_Sprachdateien_Verzeichnis.png

Auf der Übersichtsseite aller verfügbaren Sprachpakete wird die URL des zu installierenden Paketes (in diesem Beispiel deutsch) ermittelt und kopiert:

05b_Sprachdateien_Links.png

Im Verzeichnis der Sprachpakete kann die gewünschte Datei dann mittels wget URL empfangen werden.
Für das Beispiel lautet der gesamte Befehl somit wget https://github.com/tesseract-ocr/tessdata_fast/blob/main/deu.traineddata.

05c_Sprachdateien_Link_laden.png

Nach dem Download enthält das Verzeichnis trainingData die entsprechende Sprachdatei:

05d_Sprachdateien_geladen.png

Obwohl die Datei jetzt vorhanden ist, weiß die Anwendung (Stirling-PDF) noch nichts von ihr.
Hierfür muss abschließend der Container neu gestartet werden.
Im ersten Schritt wird die laufende Anwendung per docker-compose down heruntergefahren und im zweiten Schritt durch docker-compose up -d wieder gestartet.

05e_Container_Neustart.png

Das zusätzliche Sprachpaket steht Stirling-PDF ab sofort zur Verfügung.