Auch wenn ich gerne neue Technik ausprobiere, bin doch an vielen Stellen ziemlich oldschool. So sind für mich auch heute (RSS-)Feeds die effizientes Weise neue Artikel von diversen Webseiten einzusammeln. Der mehrmalige Blick in den Feed-Reader gehört für mich zum Tagesablauf; also wenn ich Zeit habe und mir nicht gerade eine Informationsdiät verschrieben habe. Dort finde ich dann die neues Artikel der diversen Web-Sites an einer Stelle; aber nicht immer so, wie ich es gerne hätte.
Problem
Wenn ich Feeds lese, dann möchte ich den gesamten Artikel in meinem Feed-Reader lesen; nur wenn ich Formatierungsprobleme vermute oder Kommentare lesen möchte, geht es auf die jeweilige Website. Das ärgert den werbetreibenden Webmaster und daher verwenden einige Site verkürzte Feeds, d.h. im Feed gibt es nur die ersten x Zeichen des Artikels oder sogar einen eigens erstellten Ersatz-Content. Wer den eigentlichen Content lesen möchte, muss auf die Seite surfen. Das widerspricht der Idee des Feed-Readers und ärgert mich jedesmal und kann auch mal dazu führen, dass ich die Site links liegen lasse1. Aber es gibt technische Mittel dagegen.
Lösungsansatz
Die Idee ist, dass man den jeweiligen Feed nicht direkt aufruft, sondern einen Web-Dienst, der
- den verkürzten Feed aufruft,
- die URLs der einzelnen Artikel aus dem Feed ermittelt,
- die jeweiligen Seiten ausliest,
- den eigentlichen Inhalt extrahiert und
- einen Feed mit den vollständigen Artikel generiert, der an den Feed-Reader weitergegeben wird.
Der mittelere Teil mit dem Extrahieren des eigentlichen Inhaltes aus der Webseite ist etwas knifflig, weil erkannt werden muss, was nun zum jeweiligen Artikel gehört und was nur störendes Beiwerk ist. Das ist aber kein Hexenwerk, denn es gibt seit Jahren Dienste wie Instapaper, die Entsprechendes tun, um mobil lesbarere Versionen zu erstellen oder die Inhalte zum Offline-Lesen zur Verfügung zu stellen.
Bisherige Lösung: Full Text RSS Feed
Wer mag, kann sich sowas selbst programmieren und dabei ganz viel lernen. Oder man benutzt einen der vielen Dienste, die Entsprechende kostenlos oder gegen ein Entgelt anbieten.
Mein Tool der Wahl war über längere Zeit Full Text RSS Feed. Der Dienst funktionierte zuverlässig und die Ergebnisse waren gut. Das Ganze koste(te) kein Geld, auch wenn um eine Spende gebeten wird2. Ich kann mir vorstellen, dass ein solcher Dienst im Betrieb nicht preiswert ist, weil im Zweifelsfall größere Textmengen recht regelmäßig bewegt werden müssen.
Letzten Samstag stellte ich fest, dass die durch den Service geschleusten Feeds von Fever nicht mehr aktualisiert wurden. Die letzten Postings waren von Ende April3. Der Dienst als Solches scheint noch zu bestehen, aber die ausgelieferten “Feeds” scheinen nicht mehr mehr im richtigen Format zu sind, sondern sehen mir eher wie ein HTML-Dokument aus, in dem sich die einzelnen Artikel finden. Fever kann das Ergebnis auf jeden Fall nicht mehr parsen.
Auf der Suche nach einer Alternative fanden sich einige ähnliche Dienste. Zumeist nicht kostenlos4 oder in der kostenlosen Variante stark eingeschränkt. Nichts, das ich einsetzten wollte.
Neue Lösung: Full-Text RSS Feeds
Dann landete ich bei Full-Text RSS Feeds5 von fivefilters.org. Auch hier wieder ein kostenloses Angebot6 und Bezahlmodelle. Was mich sofort anfixte, war die Option die Software für 20 Euro zu kaufen und den Service auf dem eigenen Web-Space selbst zu hosten.
Self-Hosting ist für mich immer eine interessante Alternative. Neben dem Punkt, dass man seine Daten in der eigenen Hand behält7, ist für mich viel wichtiger, dass man nicht mehr davon abhängig ist, ob der Dienst weiter betrieben wird. PHP-Software ist verdammt langlebig und tut oft auch noch lange nachdem, der Anbieter verschwunden ist, noch ihren Dienst8.
Im Hinblick darauf, dass das preiswerteste Bezahlangebot bei FiveFilters.org 5 Euro monatlich kostet (bei halbjährlicher Zahlung), relativiert sich auch der Preis von 20 Euro9 für Full-Text RSS Feeds.
Der Kauf wurde schnell und relativ unproblematisch10 über einen Dienstleister abgewickelt. Nach dem Kauf erhält man einen Download-Link, der 14 Tage gültig ist. Eine Lizenznummer oder Ähnliches gibt es nicht.
Das geladene ZIP-Archiv lädt man auf seinen Web-Space. Für die Installation habe ich einen nicht offensichtlichen Verzeichnisnamen gewählt11. Eine Erst-Konfiguration ist nicht notwendig. Eine Datenbankanbindung wird nicht benötigt. Man ruft einfach den Installtionspfad auf und los geht es.
Um die verpassten Artikel der letzten Wochen nachziehen zu können, habe ich die Höchstzahl der Einträge im Feed angehoben. Wie das Fly-Over des entsprechenden Feldes verrät, muss man dazu in der config.php
der Installation den entsprechenden Eintrag $options->max_entries = 10;
erhöhen.
Um einen Full Text Feed zu “erzeugen” gibt man in der Eingangsseite einfach die URL des gekürzten Feeds vor und nimmt die gewünschten Änderungen der Parameter vor. Als Ergebnis bekommt man den Full Text Feed angezeigt. Man kann dann die URL des Full Text Feeds aus der Adressleiste des Browser kopieren und in den RSS-Reader oder das entsprechende Eingabefeld des bevorzugten Feed-Aggregators einsetzen.
Full-Text RSS Feeds scheint für die “erzeugten” Feeds keine Konfiguration zu speichern. Die Parameter stehen vollständig als Variablen in der erzeugten URL. Es ist so möglich die Parameter von Hand anzupassen. Ich habe beispielsweise nach dem Erstabruf der “verpassten” Feeds die Anzahl der Einträge auf eine sinnvolle Größe begrenzt12.
Die erzeugte Feed machen auf den ersten Blick einen guten Eindruck. Sie scheinen lesbar und vollständig zu sein. Ich habe jedoch den Eindruck, dass beispielsweise bei heise news etwas mehr vom Drumrum (z.B. Verlinkung der vorherigen und folgenden Artikel, Verlinkung auf ähnliche Artikel, Verlinkung auf Kommentare) im Feed landet, als bei der alten Lösung.
Das Parsen der einzelnen Artikel kann man optimieren. Für eine Vielzahl von Site gibt es entsprechende Konfigurationsdateien. Entsprechende Vorgaben kann man auch selber erstellen.
Fazit
Als self-hosted Lösung hat Full-Text RSS Feeds bei mir erstmal einen guten Stand. Der problemlose Kaufprozess und die einfache Installation bringen weitere Pluspunkte.
Für ein umfassendes Fazit ist es jedoch noch zu früh. Ich habe noch nicht genug geparste Einträge gesehen, um den Parser, der ja das Herzstück eines solchen Systems ist, abschließend bewerten zu können. Hier wird sich zeigen müssen, ob die Ergebnisse mich auf Dauer zufrieden stellen. Auch wird sich zeigen müssen, ob das z.B. bei heise news angezeigte zusätzlich “Beiwerk” nachhaltig stört oder z.B. durch die Verlinkung nützliche Optionen bietet.
- Leider sehr selten, was mich wiederum ärgert… ↩
- Ich muss leider einräumen, dass zwar ein paal Mal darüber nachgedacht habe, etwas Geld zu spenden, es aber nie getan habe. Daher bin ich natürlich auch selbst etwas schuld, was nun passiert ist. ↩
- Wenn von den gut 100 Feeds, mit denen sich mein Fever und mein Mr. Reader sich abmühen, ein knappes Dutzend nicht mehr aktualsiert werden, fällt das nicht unbedingt sofort auf; insbesondere wenn man FdH (Feed die Hälfte) macht. ↩
- Ich bin grundsätzlich bereit, für Web-Dienste zu bezahlen. Nur hier traf sich meine Bereitschaft, was ich monatlich zu zahlen bereit bin, nicht mit dem, was die Anbieter haben wollten. ↩
- Full Text RSS Feed, Full-Text RSS Feeds?! – Nein, nicht vertan. Die Namen sind fast gleich, aber wirklich unterschiedliche Dienste. ↩
- Wenn man die Feeds durch Fever schleust und per ‚cron‘ alle 20* Minuten abruft, sollte auch das auf 3 Einträge pro Abruf begrenzte kostenlose Angebot für den Dauerbetrieb reichen. ↩
- Was sich bei einem bekennenden Google-Nutzer natürlich etwas komisch anhört; aber man muss ja irgendwo anfangen. 😉 ↩
- Was natürlich zum Problem wird, wenn die Software nicht mehr sicher ist… ↩
- Da ich mich noch ganz gut an Zeiten erinnern kann, in denen man Beträge mit ähnlicher Kaufkraft ganz selbstverständlich an Shareware-Autoren gezahlt hat, empfinde ich 20 Euro sowieso nicht als zu hoch. ↩
- Wenn man es für eine gute Idee hält mit einem Script-Blocker zu surfen, dann sollte man ihn hier abstellen. Mit Script-Blocker führte der Kaufvorgang immer zu PayPal, unabhängig davon, welche andere Zahlungsmögöichkeit man wählte; mit Blocker war PayPal weder sichtbar noch auswählbar. ↩
- Um beispielsweise die geneigten Leser vom “Testen” meiner Installation abzuhalten… ↩
- Man darf nicht vergessen, dass bei jedem Generieren eines Full Text Feeds die jeweilige Webseite entsprechend oft abgerufen und die Inhalte ausgewertet werden. Es macht einen Unterschied, ob bei einer Site, die nur einmal in der Woche aktualisiert wird, die letzten 3 oder letzten 30 Einträge unnützt abgerufen und geparst werden. Auch wenn Rechenzeit und Bandbreite für Einem selbst vielleicht keine Rolle spielen, so dauert es doch Zeit, die man im Zweifelsfall warten muss, bis der Feed aktualisert ist.
Auch sollte man nicht vergessen, dass man damit Last beim Betreiber der Webseite erzeugt. Man könnte zwar sagen Eigene Schuld!, wenn man nur verkrüppelte Feeds anbietet, aber dennoch. ↩