Lmar Niazman

13.12.2023

Lesezeit: 5 Minuten

Release des Nutch-TYPO3-CMS Plugins 2.3.0

Hinweis: Update April 2026

Dieser Blogbeitrag wurde nachträglich aktualisiert, zuletzt am 14.04.2026. Ergänzt wurden zusätzliche Hinweise zur Nutzung in DDEV, zu Apple-Silicon-Systemen, zum Logs-Verzeichnis, zum Release-Downloadformat sowie ein Beispiel für einen Cronjob.

Apache Nutch für TYPO3 ist nun in der Version 2.3.0 verfügbar!
Hier ist Apache Nutch 1.19 im Einsatz, welches neben diversen Bugfixes und Upgrades wie JDK 11 und Apache Tika 2.2.1 auch einige neue Verbesserungen und Funktionalitäten bereithält.
Die komplette Liste an Neuerungen ist hier zu finden: https://github.com/apache/nutch/blob/master/CHANGES.md

Viel Spaß dabei!

Kompatibilität mit TYPO3 und Apache Solr

Nutch für TYPO3 ist mit diesem Upgrade nun kompatibel mit:

TYPO3 10.4 & EXT:solr 11.2
TYPO3 11.5 & EXT:solr 11.5
TYPO3 12.4 & EXT:solr 12.0

Weiterhin wird mindestens Ant 1.10 und Apache Ivy 2.5 benötigt. Die vollen Kompatibilitätsbedingungen können in der Readme des Plugins nachgeschlagen werden: https://github.com/TYPO3-Solr/nutch-typo3-cms/blob/main/README.md#systems-requirements

Aufsetzen der solr-ddev-site

Damit Nutch den den Apache Solr Server erreichen und die Indizes schreiben kann, müssen alle nachfolgenden Befehle im DDEV-Webcontainer ausgeführt werden. Wechselt dazu zunächst aus eurer lokalen Umgebung in den Container und in das Nutch-Verzeichnis:

ddev ssh
cd /var/www/html/.ddev/nutch

Zum Herumprobieren haben wir die solr-ddev-site angelegt, die mit einigen wenigen Klicks auch bei euch sofort zum Testen des Nutch-Plugins bereit ist.
Wenn ihr die solr-ddev-site geklont habt (https://github.com/TYPO3-Solr/solr-ddev-site) und bei euch mindestens Docker 17.05 und ddev 1.5.1 installiert sind, könnt ihr die Umgebung mit "ddev start" bereits starten. Das Plugin ist zur Nutzung mit einem TYPO3-System soweit vorkonfiguriert, es sind nur noch einige wenige Einstellungen nötig.

Hinweise zur Nutch-Installation

Bitte beachtet, dass das logs-Verzeichnis nicht standardmäßig vorhanden ist. Dieses sollte vor der Ausführung des DDEV-Skripts angelegt werden, damit es nicht zu Fehlern kommt: mkdir -p /var/www/html/.ddev/nutch/logs Zusätzlich ist beim Download des Releases darauf zu achten, dass GitHub standardmäßig ein .zip-Archiv bereitstellt, während das DDEV-Skript unter Umständen ein .tar.gz-Archiv erwartet. Verwendet daher entweder das passende Archivformat oder passt den Ablauf entsprechend an.

Hinweis für ARM64 / Apple Silicon

Auf Macs mit M1-, M2- oder M3-Chip muss vor der Ausführung von Nutch gegebenenfalls der Java-Pfad gesetzt werden:

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-arm64

Konfiguration in nutch-site.xml

Unter conf > nutch-site.xml müssen folgende Werte eingegeben werden:

typo3.baseUrl
typo3.api.key

Der API-Key ist in eurem TYPO3-Backend links im Navigationsmenü unter Apache Solr > Info zu finden.

3: Eingegebene Parameter in der nutch-site.xml

Anschließend gebt ihr in der conf > index-writers.xml die URL eures Solr-Kerns an, in den die Ergebnisse indexiert werden sollen.

4. Angabe der URL des Solr-Kerns in der index-writers.xml

Damit in den TYPO3-Suchergebnissen auch die Nutch-Inhalte angezeigt werden, muss im TypoScript-Setup folgende Einstellung vorgenommen werden:

plugin.tx_solr.search.query.allowedSites = *

Konfiguration der Seed-URL

Zur Einrichtung des Crawlers tragt ihr unter "urls/seed.txt" lediglich die URL ein, die ihr gerne crawlen wollt. Diese URL dient Nutch als Startpunkt, von dem aus alle weiteren verlinkten Seiten berücksichtigt werden.

5. Angabe der Seed-URL

Wenn ihr nur einen bestimmten Teil einer Seite crawlen wollt, könnt ihr dies in der Datei conf/regex-urlfilter.txt festlegen. Hier werden Regular Expressions angegeben, welche die URL einschränken, die gecrawlt werden sollen. Mehr dazu findet ihr in der Nutch Doku unter https://cwiki.apache.org/confluence/display/nutch/NutchTutorial#NutchTutorial-CreateaURLseedlist.

Crawlen & Indexieren der Ergebnisse

Nun kann es losgehen! Öffnet ein Terminal in eurem Nutch-Ordner, dort ist unter bin/ das Skript crawl zu finden, was alle Funktionen beinhält, um die in der seed.txt angegebenen URLs zu crawlen, parsen und in eurer Solr-Umgebung zu indexieren. Dies tun wir mit folgendem Befehl:

bin/crawl -i -s urls/seed.txt dkd 1

Mit dem Flag -i werden die Ergebnisse indexiert, -s urls/seed.txt ist der Verweis auf die Datei, in der wir unsere Seed-URL angegeben haben. dkd gibt den Ordner an, in dem Nutch seine Ergebnisse speichern soll und 1 bestimmt die Anzahl an Durchläufen.

Alle Flags und ihre Funktionen könnt ihr unter dem folgenden Link nachlesen: https://github.com/apache/nutch/blob/master/src/bin/crawl

Sobald das Skript durchgelaufen ist, können die Ergebnisse in eurem Solr-Backend eingesehen werden. In unserem Fall sieht das folgendermaßen aus:

6. "responseHeader" (solrindex.png) einfügen

Das Löschen der Inhalte über das Solr-Backend wird zurzeit noch nicht unterstützt, da darüber nur in TYPO3 konfigurierte Sites berücksichtigt werden. Für die regelmäßige und vollständige Indexierung richtet ihr euch am Besten einen Cronjob für den crawl-Command ein.

Ein mögliches Beispiel dafür wäre:

# Run Nutch crawl every night at 2am
0 2 * * * cd /var/www/html/.ddev/nutch && bin/crawl -i -s urls/seed.txt crawl-id 2

Vielen Dank fürs Lesen! ツ

Wir möchten uns hier noch einmal bei allen bedanken, die an diesem Release beteiligt waren:

Alexander Stehlik
Lmar Niazman
Markus Friedrich
Olivier Dobberkau
Rafael Kähm

Kommentar schreiben

Name

E-Mail

Kommentar

* Diese Felder sind erforderlich

Kommentare

Keine Kommentare