Keyword Clouds durch automatische Indexierung

ZoomClouds erstellt aus einem Feed eine ‘Tag Cloud’, die man per CSS stylen und per Javascript in seine website einfügen kann.

ZoomClouds Design-Panel mit Optionen zur Darstellung und Inhalten der 'Tag Cloud'

‘Tag Cloud’ in Anführungszeichen, weil sie keine Tags beinhaltet, sondern per Yahoo! Content Analysis API oder ZoomClouds eigenem Analysetool automatisch extrahierte Keywords beinhaltet. Korrekterweise müsste das Gadget also ‘Keyword Cloud’ heißen. ZoomClouds eigenes Tool scheint die besseern Ergebnisse zu liefern, so jedenfalls behaupten die Entwickler. Leider ist das hauseigene Werkzeug weniger schnell, und daher wird vor allem die Y! API benutzt. Soweit ich sehen, hat man als ‘Kunde’ weder Einfluß auf die Wahl des Werkzeugs, noch kann man prüfen, welches gerade zu Darstellung der ‘Keyword Cloud’ benutzt wurde.

Man kann wählen, welche Inhalte des Feeds ZoomClouds betrachten soll: die der letzten 24 Stunden, drei oder sieben Tage, einem oder drei Monaten, einem Jahr oder alle. ZoomClouds behauptet, sowohl aus den archivierten Texten des eigenen Feeds als auch der Gesamtheit aller Feeds zu lernen und so die ‘Keyword Cloud’ über die Zeit hinweg zu verbessern:

  • Even more important is that ZoomClouds doesn’t just analyze what’s in your feed and accumulates the data, but in fact, when it has to analyze new content, it remembers the results of all of its previous analysis and takes that knowledge into account when it comes to determine what’s relevant and what’s not. You could say - in fact, you can say - that ZoomClouds becomes smarter and sharper as it finds new content from you.
  • One important detail is that when ZoomClouds analyzes new content for your cloud, not only it takes into account the results from analyzing past content from you, but it also takes advantage of anything else it has learned from other blogs, so in general terms, the intelligence ZoomClouds acquires from each and every feed is later applied as it analyzes new content for each and every cloud.

Mittels einer API und einiger Tricks kann man seine ZoomClouds genau steuern und abfragen. Hier die ZoomCloud für den WWWorker-Feed (mit den Inhalten seit gestern):

Zur Verbesserung der erzeugten Keyword Cloud schlägt Nial Kennedy vor, das Ergebnis der Y! API mit dem der Technorati-API zu verbinden.

Prolematisch für nicht-englische Inhalte sind die fehlenden Stoppwortlisten. Zwar kann man bei ZoomClouds bis zu 200 ‘Tags’ ausschließen, aber schon allein die Stoppwortliste von phpBB hat mehr als 1500 Einträge für die deutsche Sprache. Für die obige Wolke habe ich zehn Stoppworter definiert, vor allem Artikel und Konjugationen. Im Laufe der Zeit werden mit Sicherheit weitere Stoppworter hinzukommen.

Ein weiterer Dienst dieser Art ist Tagyu. Dort wird eine nicht näherer erläuterte Eigenentwicklung zur automatischen Indexierung benutzt. Für den letzten WWWorker-Eintrag, AOL veröffentlicht ‘anonymisierte’ Suchanfragen seiner Nutzer, gibt Tagyu die Keywords proxy weird news content datenbank geokoordinaten opensource sowie als Kategorie Sports zurück. Mit nicht-englischen Texten kommt also auch Tagyu nicht zurecht. Interessant ist die Idee, auf Basis der Keywords hierarchische Kategorien zu bilden.

Kennt Ihr weitere web-basierte Dienste, die Keywords aus Texten extrahieren? Vielleicht sogar einen Dienst, der mit der deutschen Sprache zurecht kommt?

One comment

  1. Ja, mit der Elkx-Box liegt ab heute ein solches Tool vor: Elkx-Box steht für “embeddable multilingual keyword extraction box” und ist ein Tool, mit dem Schlüsselwörter extrahiert und direkt in einer Box auf der betreffenden Webseite eingebunden werden können.

    Gegenwärtig werden vier Sprachen unterstützt: Deutsch, Englisch, Französisch und Spanisch. Support für das Russiche ist in Planung.

    Bei Interesse finden sich weitere Informationen auf der o.g. Webseite oder in unserem Development Blog.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert