Mik azok a karakterkódolások, mint az ANSI és a Unicode, és hogyan különböznek?

Tartalomjegyzék:

Mik azok a karakterkódolások, mint az ANSI és a Unicode, és hogyan különböznek?
Mik azok a karakterkódolások, mint az ANSI és a Unicode, és hogyan különböznek?

Videó: Mik azok a karakterkódolások, mint az ANSI és a Unicode, és hogyan különböznek?

Videó: Mik azok a karakterkódolások, mint az ANSI és a Unicode, és hogyan különböznek?
Videó: Hogyan működik a Bitcoin? - YouTube 2024, Április
Anonim
ASCII, UTF-8, ISO-8859 … Lehet, hogy ezeket a furcsa monikerek lebegtek, de mit jelentenek? Olvassa el, mi megmagyarázzuk, mi a karakterkódolás, és hogy ezek a betűszavak hogyan kapcsolódnak a képernyőn látható egyszerű szöveghez.
ASCII, UTF-8, ISO-8859 … Lehet, hogy ezeket a furcsa monikerek lebegtek, de mit jelentenek? Olvassa el, mi megmagyarázzuk, mi a karakterkódolás, és hogy ezek a betűszavak hogyan kapcsolódnak a képernyőn látható egyszerű szöveghez.

Alapépületek

Amikor az írásos nyelvről beszélünk, arról beszélünk, hogy a betűk a szavak építőkövei, amelyek majd mondatokat, bekezdéseket építenek, és így tovább. A betűk szimbólumok, amelyek hangokat jeleznek. Amikor beszélsz a nyelvről, olyan hangcsoportokról beszélsz, amelyek összefognak valamilyen jelentést. Minden nyelvi rendszer összetett szabálykészletet és meghatározásokat tartalmaz, amelyek szabályozzák ezeket a jelentéseket. Ha van egy szó, használhatatlan, hacsak nem tudja, melyik nyelvből származik, és azt használod másokkal, akik ezt a nyelvet beszélik.

(Grantha, Tulu és Malayalam szkriptek összehasonlítása, Wikipedia kép)
(Grantha, Tulu és Malayalam szkriptek összehasonlítása, Wikipedia kép)

A számítógépek világában a "karakter" kifejezést használjuk. A karakter egyfajta elvont fogalom, amelyet meghatározott paraméterek definiálnak, de ez az alapvető értelemegység. A latin "A" nem ugyanaz, mint egy görög "alfa" vagy egy arab "alif", mert eltérő kontextusban vannak - különböző nyelvűek, és kissé eltérő kiejtéssel rendelkeznek - így azt mondhatjuk, hogy más karakterek. A karakterek vizuális ábrázolását "glyph" -nak nevezik, és különböző karakterlánc-készleteket neveznek betűtípusnak. Karaktercsoportok egy "készlet" vagy egy "repertoár" -hoz tartoznak.

Amikor begépel egy bekezdést, és megváltoztatod a betűtípust, nem változtatod meg a betűk hangzásbeli értékeit, megváltoztatod a megjelenésüket. Ez csak kozmetikai (de nem nélkülözhetetlen!). Egyes nyelvek, mint az ősi egyiptomiak és a kínaiak, ideogramok; ezek teljes ötleteket jelentenek a hangok helyett, és a kiejtéseik az idő és a távolság függvényében változhatnak. Ha egy karaktert helyettesít egy másik számára, akkor egy ötletet cserél. Ez több, mint a betűk megváltoztatása, egy ideogram megváltoztatása.

Karakterkódolás

(Kép a Wikipédiából)
(Kép a Wikipédiából)

Ha valamit beír a billentyűzetre, vagy betölt egy fájlt, hogyan tudja a számítógép tudni, hogy mit kell megjeleníteni? Ez a karakterkódolás. A számítógépen lévő szöveg nem betűk, hanem párosított alfanumerikus értékek sorozata. A karakterkódolás kulcsként működik, amelyhez az értékek megfelelnek a karaktereknek, hasonlóan ahhoz, ahogyan az ortografika azt határozza meg, melyik hangnak felelnek meg a betűknek. A Morse kód egyfajta karakterkódolás. Megmagyarázza, hogy a hosszú és a rövid egységek csoportjai, például a hangjelzések, karaktereket képviselnek. A Morse kódban a karakterek csak angol betűk, számok és teljes leállások. Számos számítógépes karakterkódolás létezik, amely betűk, számok, akcentusjelek, írásjelek, nemzetközi szimbólumok és így tovább.

Gyakran ezen a témakörön a "kódlapok" kifejezést is használják. Ezek lényegében karakterkódolások, amelyeket egyes vállalatok használnak, gyakran kisebb változtatásokkal. Például a Windows 1252 kódlap (korábbi nevén ANSI 1252) az ISO-8859-1 módosított formája. Leginkább belső rendszerként használják az olyan szabványos és módosított karakterkódolásokat, amelyek ugyanazokra a rendszerekre vonatkoznak. Korán a karakterkódolás nem volt olyan fontos, mert a számítógépek nem kommunikáltak egymással. Ha az internet egyre inkább előtérbe kerül, és a hálózatépítés gyakori előfordulás, napjaink életének egyre fontosabbá válik anélkül, hogy felismernénk.

Sok különböző típus

(Kép sarah sosiak)
(Kép sarah sosiak)

Rengeteg különböző karakterkódolás van ott, és rengeteg oka van ennek. Milyen karakterkódolást választasz, attól függ, hogy milyenek az igényei. Ha oroszul kommunikál, érdemes használni egy karakterkódolást, amely támogatja a cirillikus rendszert. Ha koreai nyelven kommunikálsz, akkor szükséged lesz valamire, ami Hangulot és Hanja-t képviseli. Ha matematikus vagy, akkor olyan dolgot akarsz, amely jól reprezentálja a tudományos és matematikai szimbólumokat, valamint a görög és latin ábrákat. Ha egy prankster, akkor talán a fejjel lefelé irányuló szöveg előnyeit élvezheti. És ha azt szeretné, hogy az ilyen típusú dokumentumok bármelyik személy számára megtekinthetők legyenek, olyan kódolást szeretne, ami elég gyakori és könnyen elérhető.

Vessünk egy pillantást a leggyakoribbakra.

(Kivonat az ASCII tábla, Image from asciitable.com)
(Kivonat az ASCII tábla, Image from asciitable.com)
  • ASCII - Az információcsere amerikai szabványkódja az egyik legrégebbi karakterkódolás. Eredetileg telegráf kódok alapján készült és idővel fejlődött, hogy több szimbólumot és néhány elavult, nem nyomtatott vezérlő karaktert tartalmazzon. Valószínűleg olyan alapvető, amennyit csak tudsz a modern rendszerek szempontjából, mivel ez csak a latin ábécére korlátozódott, ékezetes karakterek nélkül. A 7-bites kódolás csak 128 karaktert tesz lehetővé, ezért számos nem hivatalos változat létezik világszerte.
  • ISO-8859 - A Nemzetközi Szabványosítási Szervezet legelterjedtebb karakterkódolás-csoportja 8859. Minden egyes specifikus kódolást egy számmal jelölnek meg, amelyet gyakran előíró egy leíró leíró, pl. ISO-8859-3 (latin-3), ISO-8859-6 (latin / arab).Ez az ASCII szupersettje, ami azt jelenti, hogy a kódolás első 128 értéke megegyezik az ASCII-vel. Ez azonban 8 bites, és 256 karaktert tesz lehetővé, így innen épül fel, és sokkal szélesebb karaktert tartalmaz, minden egyes kódolásra, amely egy másik kritériumkészletre összpontosít. A latin-1-ben egy csomó ékezetes betű és szimbólum szerepelt, de később felváltotta a Latin-9 nevű felülvizsgált készletet, amely frissített ábrákat tartalmaz, például az euró szimbólumot.
(Kivonat a tibeti forgatókönyvből, Unicode v4, unicode.org)
(Kivonat a tibeti forgatókönyvből, Unicode v4, unicode.org)
  • Unicode - Ez a kódolási szabvány célja az egyetemesség. Jelenleg 93 blokkban szervezett szkriptet tartalmaz, sok más a munkákban. A Unicode másképp működik, mint más karakterkészletek, mivel ahelyett, hogy közvetlenül kódolná a karaktert, minden érték egy "kódpont" felé irányul. Ezek olyan hexadecimális értékek, amelyek megfelelnek a karaktereknek, de a glifák önmagukban a programtól elválaszthatók, például a webböngésző. Ezek a kódpontok általában a következőképpen ábrázolódnak: U + 0040 (ami "@" -ra fordul). A Unicode szabvány szerinti specifikus kódolás az UTF-8 és az UTF-16. Az UTF-8 megkísérli a maximális kompatibilitást az ASCII-vel. 8 bites, de lehetővé teszi az összes karaktert helyettesítési mechanizmus és több karakter páronkénti karakterenként. Az UTF-16 árkok tökéletes ASCII kompatibilitást biztosítanak a teljes szabványos 16 bites kompatibilitás érdekében.
  • ISO-10646 - Ez nem egy tényleges kódolás, csak egy Unicode karakterkészlet, amelyet az ISO szabványosít. Ez leginkább azért fontos, mert a HTML által használt karakter-repertoár. Hiányoznak a Unicode által nyújtott, fejlettebb funkciók, amelyek lehetővé teszik az összeillesztést és jobbra-balra a balról jobbra történő szkriptelés mellett. Mégis nagyon jól működik az interneten való használatra, mivel lehetővé teszi a szkriptek széles skálájának használatát, és lehetővé teszi a böngésző számára, hogy értelmezze az ábrákat. Ez megkönnyíti a lokalizációt.

Milyen kódolást kell használni?

Nos, az ASCII a legtöbb angol beszélő számára működik, de nem sok mást. Gyakrabban látható az ISO-8859-1, amely a legtöbb nyugat-európai nyelv esetében működik. Az ISO-8859 többi verziója cirill, arab, görög vagy más specifikus szkriptekhez. Ha azonban több szkriptet szeretne megjeleníteni ugyanabban a dokumentumban vagy ugyanazon a weboldalon, az UTF-8 sokkal jobb kompatibilitást tesz lehetővé. Nagyon jól működik azok számára is, akik megfelelő írásjeleket, matematikai szimbólumokat vagy mandzsettagombokat használnak, például négyzeteket és jelölőnégyzeteket.

(Több nyelv egy dokumentumban, Screenshot of gujaratsamachar.com)
(Több nyelv egy dokumentumban, Screenshot of gujaratsamachar.com)

Mindazonáltal vannak hátrányai az egyes készletekhez. Az ASCII korlátozott az írásjelekben, ezért nem működik hihetetlenül a tipográfiailag helyes szerkesztéseknél. Valaha írja be a Word-ből a copy / paste-t, hogy legyen valami furcsa kombináció a karakterekkel? Ez az ISO-8859 hátránya, pontosabban az operációs rendszert futtató kódlapokkal való feltételezett interoperabilitása (az Ön, a Microsoft!). Az UTF-8 legfontosabb hátránya az alkalmazások szerkesztéséhez és közzétételéhez szükséges megfelelő támogatás hiánya. A másik probléma az, hogy a böngészők gyakran nem értelmezik és csak megjelenítik az UTF-8 kódolt karakter byte-sorrendjét. Ez nem kívánt ikonokat jelenít meg. Természetesen, ha egy kódolást és egy másik karaktert használsz, anélkül, hogy egy weboldalon helyesen deklarálnád / utalnád őket, nehezíti a böngészők helyes megjelenítését és a keresőmotorok megfelelő indexelését.

Saját dokumentumaihoz, kéziratokhoz stb. Használhatsz mindent, amire szüksége van a munkához. Ami az internetet illeti, úgy tűnik azonban, hogy a legtöbb ember egyetért egy UTF-8 verzióval, amely nem használ egy byte-sorrendet, de ez nem teljesen egyöntetű. Amint látja, minden egyes karakterkódolásnak saját felhasználása, kontextusa, erősségei és gyengeségei vannak. Végfelhasználóként valószínűleg nem kell foglalkoznod ezzel, de most már megteheti az extra lépést, ha úgy döntesz.

Ajánlott: