Web-Archiv Teil 6: RSS-Import zu Wallabag

Es gibt sicherlicht gute Gründe, warum die Wallabag-Macher von Haus aus keinen RSS-Import vorgesehen haben. Andererseits gibt es genau so viele gute Gründe, dies doch zu tun. Je nach Setup möchte man beispielsweise alle Artikel einer Nachrichtenseite zu einem bestimmten Thema abonnieren und dies automatisch zu Wallabag hinzufügen. Ein anderer Usecase ist es, die eigenen Twitter-Postings zu archivieren. Einen offiziellen Twitter-RSS-Feed gibt es nicht mehr, aber es gibt Alternativen.

Es gibt ein Python-Script, was diese Aufgabe für einen oder mehrere RSS-Feeds übernehmen kann: Jeder Eintrag des Feeds wird als neuer Link zu Wallabag hinzugefügt. Da Wallabag selbst in einem Docker-Container läuft, ist es ratsam, dieses Script Weiterlesen

Web-Archiv Teil 7: Wallabag und eReader

Vielleser schätzen einen e-Book-Reader ob seiner Leichtigkeit – man kann quasi unbegrenzt Bücher mitnehmen. Und da liegt es doch auch nahe, sich Artikel aus Wallabag auf den e-Book-Reader zu beamen.

Da ich einen Amazon Kindle habe, bin ich hier aktiv geworden und habe mich um eine Einbindung gekümmert. Der Weg via ePub für andere Reader dürfte ähnlich sein.

Das Web-Interface des Kindle Consumers

Jan hat dankbarerweise einen Kindle-Consumer geschrieben und in einen einfachen Docker-Container verfrachtet.
Diese Software checkt Wallabag in regelmäßigen Abständen und fragt ab, ob ein Artikel Weiterlesen

Web-Archiv Teil 8: Wallabag und ArchiveBox

Als ich mit der Recherche um das Thema angefangen habe, erschein mir ArchiveBox zunächst als die bessere Lösung, nach einiger Zeit ist dieser Gedanke aber mehr und mehr in Richtung Wallabag umgeschwenkt. Dennoch bietet auch ArchiveBox ein nicht zu unterschätzendes Werkzeug, dass genauere Betrachtung verdient.

ArchiveBox ist an das Internet Archive angelehnt und dient, wie der Name schon sagt, dem Archivieren von Webinhalten. Es ist allerdings nicht auf die Verwaltung von großen Textmengen optimiert und kann beispielsweise nicht mit Tags umgehen. Daher fiel es funktionsmäßig als erstes Tool in der Kette aus.
Dennoch kann es gute Gründe geben, Websites mittels ArchiveBox zu sichern: Die Software ist in der Lage, eine Website auf vielerlei Arten zu sichern: Als Screenshot, Volltext-HTML (jedoch keine Reduzierung auf den wesentlichen Textinhalt — aber das erledigt ja Wallabag) oder PDF. Das Internet Archive wird ebenfalls mit der Bitte, die Seite zu sichern, angepingt. Auch ein YouTube-Downloader (youtube-dl) ist vorhanden.
Weiterlesen