Artikkel: 10928 of comp.protocols.kermit.misc
Fra: fdc@watsun.cc.columbia.edu (Frank da Cruz)
Nyhetsgruppe: comp.protocols.kermit.misc
Emne: Case Study #8: Unicode
Dato: 15 Jan 2000 21:07:28 GMT
Organisasjon: Columbia University
Hvem vet ikke hva Unicode er? Nå som databehandling har blitt så utbredt og nettsentrert – en revolusjon i seg selv – står vi på randen av en ny revolusjon innen databehandling, en som kan ha dyptgående effekter på oss alle og kanskje til og med på historiens gang.
Inntil nylig har mesteparten av datamaskinteksten blitt lest/skrevet inn i enkeltbytes 7-bits eller 8-bits tegnsett (1), en per språk eller språkgruppe. For eksempel var standard tegnsett på Internett opprinnelig ISO 8859-1 Latin Alphabet 1, som kan kode engelsk pluss de fleste vest-europeiske språk: italiensk, spansk, tysk, islandsk, etc. Men det kan ikke kode østeuropeiske språk som Polsk, tsjekkisk eller ungarsk, selv om de bruker det samme alfabetet, fordi aksentene er forskjellige. Det kan heller ikke representere språk som russisk, arabisk, hebraisk eller japansk som bruker andre skrivesystemer. Derfor må vi ofte bytte tegnsett for å skrive på andre språk enn vårt eget, og som alle som har prøvd det kan fortelle deg, er det en utfordrende affære. Det er enda vanskeligere hvis vi trenger å blande forskjellige språk i det samme dokumentet; for eksempel portugisisk, rumensk, russisk og armensk.
Den store fordelen med Internett er dets potensial til å bringe mennesker i alle land sammen som aldri før. Vi kan bli kjent med hverandre og sette pris på hverandres språk og kulturer med umiddelbar tilgjengelighet, veldig enkelt. Og den store lærepengen om supermaskiner og internettkultur så langt er: for at alt skal fanges opp, må det være enkelt. Å takle det nåværende Babyl -tegnsettet er alt annet enn enkelt: forskjellige plattformer bruker forskjellige private tegnsett (for eksempel PC -kodesider), som må kartlegges til en hvilken som helst av en rekke standard tegnsett (for eksempel ISO Latin -alfabeter) eller til forskjellige private tegnsett på andre plattformer. Hvis språk skal blandes, er det nødvendig med detaljerte og ofte produktspesifikke koblingsmekanismer.
Her kommer Unicode til unnsetning. I mer enn 10 år har en samling av representanter fra bedrifter, akademikere og standardorganer jobbet med å lage et enkelt universelt tegnsett som kan representere alle verdens skrivesystemer. For å finne ut alt om Unicode, besøk Unicode Consortium -nettstedet:
Unicode markerer en grunnleggende endring i hvordan vi gjør beregninger. Hvert tegn representeres ikke av en enkelt byte (1), men kan være en, to, tre, fire eller flere byte, avhengig av Unicode Transformation Format (UTF) som brukes og de spesifikke tegnene som er involvert. Men siden vi har femti år med programvare og data som bruker en-byte-per-tegn-modellen, vil overgangen til Unicode være en lang prosess. Men prosessen er godt i gang.
En stor del av denne overgangen er opprettelsen av Unicode-fonter. Arbeidet utføres stykkevis, med hver skrift som inneholder (kanskje) en annen undersett av Unicode, med flere tegn og skrivesystemer lagt til over tid. Datamaskinen din støtter kanskje allerede Unicode til en viss grad. For å sjekke, besøk:
Dette er en enkel plain-tekst webside som inneholder tekst på mange språk (2) kodet i Unicode Transformation Format 8 (UTF-8). Du kan se mange “ukjent-tegn”-bokser eller humbug, avhengig av nettleser, skrift og språk.
Besøk:
for en undersøkelse av Unicode -fonter, for å se hvordan du kan utvide horisonten til din egen datamaskin akkurat nå. Prøv å installere en oppdatert skrift og gå til UTF-8-prøvesiden igjen.
Det du ser markerer et stort sprang fremover: en leverandørnøytral, applikasjonsuavhengig metode for koding av tekst på mange språk – og en dag håper vi alle språk. I motsetning til andre websider du kanskje har sett, er det ingen triks her – for eksempel ingen GIF-er for å representere kinesisk eller hebraisk. Det er bare ren tekst. Du kan velge og kopiere den som hvilken som helst annen tekst, men om du kan lime den inn i et annet program avhenger av den andre applikasjonen. På Windows 95 og nyere, for eksempel, kan du lime den inn i Microsoft Word hvis den har en Unicode-skrift som Arial eller Times New Roman valgt, og se flere av de ikke-romerske skriptene (men ikke nødvendigvis alle).
Kermit Project har vært medlem av Unicode Consortium i årevis, og nå støtter C-Kermit og Kermit 95 Unicode som overførings tegnsett, et fil tegnsett og et terminalt tegnsett. Plutselig har du praktiske plattformverktøy for migrering til Unicode og grensesnitt mellom Unicode og tradisjonelle miljøer. For eksempel:
- Du kan koble fra et tradisjonelt miljø til en Unicode-plattform (for eksempel Plan 9) og få Kermit til å oversette mellom ditt lokale tegnsett og Unicode under terminalsessionen. Eller vice versa. (3)
- Du kan sende tradisjonelt kodet tekst (si italiensk kodet på latin-1 eller kode side 850) til et Unicode-miljø, og du kan importere Unicode-tekst til det tradisjonelle miljøet.
- Du kan konvertere lokale filer fra tradisjonelle tegnsett til Unicode, og omvendt.
- Du kan konvertere mellom forskjellige Unicode -transformasjonsformater.
C-Kermits Unicode-støtte er integrert med alle de andre tegnsettene, som dekker (se diagram):
- Engelsk og vesteuropeisk (Latin-1) språk.
- Østeuropeisk romersk-alfabet (latin-2) språk.
- Russisk, ukrainsk og andre språk skrevet på kyrillisk.
- Gresk.
- Hebraisk.
- Japansk.
Det meste du ser på UTF-8-prøvesiden, kan du også se på Kermit 95-skjermen; det er “bare” et spørsmål om å ha den riktige skriften.
Som vanlig har jeg vandret lengre enn planlagt og fortsatt bare skrapt på overflaten. For flere detaljer, les seksjon 6.6 i oppdateringsnotatene for C-Kermit 7.0.
Merknader:
- Oversimplification. Tradisjonelle østasiatiske tegnsett, blant andre, bruker forskjellige multibytkoder.
- Gi meg beskjed hvis du kan legge til språk på denne siden. (fdc (a) columbia.edu)
- For å lære om Unicode -støtte i Linux, besøk http://www.cl.cam.ac.uk/~mgk25/unicode.html.
– Frank