TekensTekens worden normaal geproken voorgesteld door een string van zeven bits,
gecodeerd in het zogenoemde ASCII (American Standard Code for Information
Interchange). Op moderne computers, bestaat ieder van de 128 ASCII-tekens
uit de laagste zeven bits van een 8-bit octet; octets
zijn verpakt in geheugenwoorden, zodat (bijvoorbeeld) een string van
zes tekens slechts twee geheugenwoorden in beslag kan nemen. Typ `man 7 ascii'
achter je Unix-prompt, voor een ASCII-code tabel.De voorgaande paragraaf was op twee manieren misleidend. De minst belangrijke
is dat de term `octet' formeel correct is, maar in feite zelden wordt gebruikt;
de meeste mensen refereren naar een octet als een byte en
verwachten dat een byte acht bits groot is. Strikt genomen, is de term
`byte' algemener; er waren bijvoorbeeld 36-bit computers met 9-bit bytes
(alhoewel die er waarschijnlijk nooit meer zullen zijn).Het belangrijkste is dat niet iedereen in de wereld ASCII gebruikt. In feite
kan niet iedereen in de wereld gebruik maken van ASCII. Hoewel het prima
werkt voor Amerikaans-Engels, ontbreken er veel geaccentueerde letters en
andere speciale tekens in die gebruikers van andere talen nodig hebben.
Zelfs Britisch-Engels heeft er problemen mee dat er een pound-teken in
ontbreekt om geldbedragen mee uit te drukken.Er zijn verscheidene pogingen ondernomen iets aan dit probleem te doen. Allen
maken gebruik van het extra hoge bit dat ASCII niet heeft, waarbij ASCII wordt
gemaakt tot de lage helft van een 256-character set. Het meest gebruikte
hiervan is de zogenoemde `Latin 1' chararacter set (wat formeler met de naam
ISO 8859-1). Dit is de standaard character set voor Linux, HTML, en X.
Microsoft Windows maakt gebruik van een gewijzigde Latin-1. Hieraan zijn
een boel tekens toegevoegd, zoals de rechter en linker dubbele aanhalingstekens
op plaatsen van de originele Latin-1, die om historische redenen niet zijn
ingevuld. Zie de page voor de problemen die dit veroorzaakt).Latin-1 omvat de meeste Europese talen, waaronder Engels, Frans, Duits,
Spaans, Italiaans, Nederlands, Norweegs, Zweeds, Deens. Dit is echter ook
nog niet voldoende, en als resultaat is er een hele serie Latin-2 tot
Latin-9 character sets voor zaken zoals Grieks, Arabisch, Hebreeuws, Spaans en
Serbo-Kroatisch. Zie de
page voor details.De laatste oplossing is een zeer grote standaard genaamd Unicode (en z'n
identieke tweeling ISO/IEC 10646-1:1993). Unicode is identiek aan Latin-1
in z'n laagste 256 slots. Hierboven bevat het in 16-bit ruimte Grieks,
Cyrillisch, Armeens, Hebreeuws, Arabisch, Devanagari, Bengaals, Gurmukhi,
Gujarati, Oriya, Tamils, Telugu, Kannada, Malayalam, Thaais, Lao, Georgiaans,
Tibetaans, Japanees-Kana, de volledige set met moderne Koreaanse Hangul,
en een éénduidige set met Chinese/Japanese/Koreaanse (CJK)
ideogrammen. Zie de voor details.