Zeichensätze und ihre Tücken

Letzten Donnerstag kam ich auf die Idee, meine Webseite auf UTF-8 umzustellen.

Um es kurz zu erklären – es geht hierbei um Zeichenkodierung, für z. B. im Deutschen die Umlaute, damit diese auch richtig (de-)kodiert werden nach Bits und Bytes und wieder zurück (genauere Infos findet man in der Wikipedia!). Und UTF-8 ist sozusagen die eierlegende Wollmilchsau, da diese sehr viele Zeichensätze vereint. Das von mir vorher genutze ISO-8859-1 enthielt nur europäsche Zeichen und ich wollte etwas allgemeingültiges nutzen.

Mein Gedanke war, daß ich „nur“ mal eben meine MySQL-Datenbank von Version 4.0 auf 4.1 updaten und im Kopf dieser HTML-Seiten statt ISO-8859-1 UTF-8 ausgeben muß.

Falsch gedacht!

Allein das Update der Datenbank zog eine Menge mehr Arbeit mit sich, da alle Programme, die irgendwie auf MySQL zugriffen, auch neu kompiliert werden mußten. Ergo war der Server hierfür schon einmal ca. 8 Stunden beschäftigt (bzw. ich ca. 3 Stunden).

Das knappe Update der Webseiten war auch fatal unterschätzt! Ich bin gerade erst fertig geworden mit der Fehlerbereinigung. Erst wurden die Zeichen nicht richtig angezeigt, dann wurden diese zwar richtig angezeigt, aber noch im alten Code in der Datenbank abgespeichert. Zeichenersetzungen funktionierten nicht mehr, etc. pp.

Aber nun ist es geschafft und ich merke mir für’s nächste mal, daß man nicht alles als zu simpel ansehen sollte.

PS: Wer immer noch Probleme haben sollte, das – obwohl die Webseite alle Umlaute richtig anzeigt – in der Datenbank die Zeichen doch noch nach ISO-kodierten UTF-8 ausehen, sollte vor seine SQL-Queries diesen absetzen:

SET NAMES utf8;

Keine Ahnung, wie lange ich danach gesucht habe….

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.