Web-Archiv Teil 1: Was kann Wallabag?

Die Softare Wallabag kann man sich als eine Art Pocket-Klon vorstellen: Eine Software, die Lesezeichen (Web-Adressen) und vor allem Texte daraus verwaltet und diese in einer angenehmen Art zum Lesen aufbereitet. Überflüssige Seiteninhalte werden entfernt und nur der Text wird dargestellt. Wallabag ist Open Source und wird via GitHub gepflegt, User können Bugs einreichen und sich am Prozess beteiligen. Die Software ist in PHP geschrieben und nutzt standardmässig eine SQLite-Datenbank. Das hat sich für meinen Anwendungsfall (Einzelnutzer, aber 10.000+ Lesezeichen) nicht als Problem herausgestellt; im Gegenteil: Backups sind beispielsweise sehr einfach zu handhaben.
Wer keine Lust hat, Wallabag selbst zu installieren, kann sich auch eine gemietete Version klicken.

Wallabag zieht mittels Readability ein Text-Exzerpt von Websites, was sehr angenehm ist und in den allermeisten Fällen problemlos 1. Dies hat auch den schönen Nebeneffekt, dass man eben diesen Volltext als Link, PDF, HTML, ePub oder Mobi bereit stellen kann. Maximale Flexibilität also.

Dieser Volltext ist auch von allen Tracking-Mechanismen der Original-Seite befreit, das heißt der Seitenbetreiber kann dann nicht mehr tracken, wie lange ein bestimmter Artikel aus Wallabag heraus aufgerufen wird, wie lange man daran liest etc. Ebenfalls profitiert ein im Heimnetz laufendes Wallabag auch von netzwerkweiten Werbeblockern wie Pi-Hole und lädt Schrott erst gar nicht ins Archiv.

Wallabags Volltext in der eigenen Datenbank ist auch dann noch vorhanden, wenn die ursprüngliche Website in der Zwischenzeit offline gegangen ist. Allerdings wird — anders als bei Archive.org oder ArchiveBox, auf das später eingegangen wird, nicht der Look and Feel der Originalseite bewahrt.

Wallabag hat außerdem Support für Tags (Schlagwörter) und einen gelesen / ungelesen-Status, bietet sich also somit als persönliches Themen-Archiv und „zu-Lesen“-Liste an. Angenehm dabei ist, dass der Lesestand innerhalb der Artikel synchronisiert wird und die Dauer, die das Lesen des Artikels noch etwa betragen wird, angezeigt wird. Fange ich also am iPhone an, einen Artikel zu lesen und höre mittendrin auf, steht mir der aktuelle Stand später auf dem gleichen oder einem anderen Gerät zur Verfügung.
Neben den Tags gibt es eine Volltext-Suche innerhalb der kompletten Datenbank, die hier und da über vergessene Tags hinwegsehen lässt.

Leider lässt sich die Leseansicht von Wallabag nicht konfigurieren — hier würde ich mir verschiedene Schriftarten, Hintergründe, Zeilenabstände und so weiter wünschen. Vielleicht kommt das in einer kommenden Version. Bis dahin behelfe ich mir mit dem Lesemodus meines Browsers, wo man genau diese Sachen dann einstellen kann. Wallabags Volltext bringt natürlich bei langen Texten am meisten Gewinn, bei Websites, die aus viel Javascript und dynamisch nachgeladenen Inhalten bestehen, klappt das nicht oder nicht gut. In diesem Fall dient Wallabag dann allenfalls als Link-Sammlung mit Tags.

Das Client-Management von Wallabag für externe Clients wie beispielsweise das Firefox-Plugin oder den Kindle Consumer

Ein weiteres geniales Feature ist, das Wallabag hinter Paywalls schauen und den Volltext dieser Artikel auch heraus ziehen kann — ein gültiges Abo bei der entsprechenden Website natürlich voraus gesetzt. Die Architektur des Dienstes bietet hier für alle möglichen Quellseiten eine Scriptdatei an, in welcher man das Parsing für die Website anpassen und die Paywall-Authentifizierung hinterlegen kann. Wallabag bietet eine API für andere Applikationen an und somit wird sicher gestellt, dass beispielsweise Browser-Erweiterungen oder Import-/Export-Services auch von unabhängigen Dritten bereit gestellt werden können.

Nach der eigenen Größe der Datenbank bemisst sich der Plattenplatz, den man für Wallabag einplanen muss, insbesondere dann, wenn auch Bilder zu Artikeln gesichert werden sollen.

Die iOS-App von Wallabag ist leider kaum zu gebrauchen.

Man merkt Wallabag und — ganz besonders — der offiziellen iOS-App an manchen Stellen an, dass hier keine professionelle Firma, sondern ein Team von Open-Source-Entwicklern an den Reglern ist: Das Interface hat einige Merkwürdigkeiten2, glücklicherweise sind die am meisten benutzten Sachen (Lesemodus, Tagging, Suche etc) aber gut gepflegt und durchaus angenehm zu benutzen. Bugs werden regelmäßig gefixt und neue Versionen erscheinen kontinuierlich. Gleiches kann man von der iOS-App leider überhaupt nicht sagen. Verzerrte Bilder, Abstürze, Krater-Fließtext und Abstürze im Share-Sheet sind nur einige der Ärgerlichkeiten. Die App ist wirklich unbenutzbar und ich lasse sie nur wegen der Sharing-Funktion installiert, aber selbst die stürzt leider oft ab und reißt die darunter liegende App mit in den Abgrund. Hier gibt es noch deutlichen Verbesserungsbedarf, aber da ja alles Open-Source ist, können sich Freiwillige beteiligen.

Die folgenden Themen werden in der Wallabag-Artikelserie behandelt:
Einleitung —  Auf Vorrat gespeichert: Das eigene Web-Archiv auf dem NAS
Teil 1: Was kann Wallabag?
Teil 2: Wallabag via Docker auf Synology NAS
Teil 3: Wallabag-Tuning
Teil 4: Wallabag und Paywalls
Teil 5: Wallabag-Backup und Versionsupdates
Teil 6: RSS-Import zu Wallabag
Teil 7: Wallabag und eReader
Teil 8: Archivebox und Wallabag

  1. Das heißt, der komplette Text einer Seite ist verfügbar und sonst nichts.
  2. Beispielsweise eine 0 / 1 statt eines Schalters für einige Optionen

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.