Miért kell az angol karaktereknek kevesebb forrást igényelnie ahhoz, hogy azokat ábrázolja, mint a karaktereket más ábécékben?

Videó: Miért kell az angol karaktereknek kevesebb forrást igényelnie ahhoz, hogy azokat ábrázolja, mint a karaktereket más ábécékben?

Videó: This Will Clean Your Computer Viruses (Malware) - YouTube 2024, Április

2024 Szerző: Geoffrey Carr | [email protected]. Utoljára módosítva: 2023-12-17 10:54

Míg a legtöbbünk valószínűleg soha nem hagyta abba, hogy gondolkodjon, az ábécé karakterek nem egyforma méretűek az általuk képviselt bájtok számában. De miért? A mai SuperUser Q & A hozzászólás a kíváncsi olvasó kérdéseire ad választ.

A mai Kérdések és válaszok munkamenetét a SuperUser - a Stack Exchange, a Q & A weboldalak közösség által irányított csoportosulásának részlegével - köszönheti.

Részleges ASCII diagram screenshot udvarias a Wikipedia.

A kérdés

A SuperUser olvasó khajvah tudni akarja, hogy a különböző ábécék mikor mentettek különböző mennyiségű lemezterületet:


When I put ‘a’ in a text file and save it, it makes it 2 bytes in size. But when I put a character like ‘ա’ (a letter from the Armenian alphabet) in, it makes it 3 bytes in size.
What is the difference between alphabets on a computer? Why does English take up less space when saved?

Levelek levelek, ugye? Talán nem! Mi a válasz erre az ábécé rejtélyre?

A válasz

A SuperUser munkatársai, Doktoro Reichard és ernie, válaszolnak nekünk. Először Doktoro Reichard:


One of the first encoding schemes to be developed for use in mainstream computers is the ASCII (American Standard Code for Information Interchange) standard. It was developed in the 1960s in the United States.







The English alphabet uses part of the Latin alphabet (for instance, there are few accented words in English). There are 26 individual letters in that alphabet, not considering case. And there would also have to exist the individual numbers and punctuation marks in any scheme that pretends to encode the English alphabet.
The 1960s was also a time when computers did not have the amount of memory or disk space that we have now. ASCII was developed to be a standard representation of a functional alphabet across all American computers. At the time, the decision to make every ASCII character 8 bits (1 byte) long was made due to technical details of the time (the Wikipedia article mentions the fact that perforated tape held 8 bits in a position at a time). In fact, the original ASCII scheme can be transmitted using 7 bits, and the eighth could be used for parity checks. Later developments expanded the original ASCII scheme to include several accented, mathematical, and terminal characters.







With the recent increase of computer usage across the world, more and more people from different languages had access to a computer. That meant that, for each language, new encoding schemes had to be developed, independently from other schemes, which would conflict if read from different language terminals.
Unicode came into being as a solution to the existence of different terminals by merging all possible meaningful characters into a single abstract character set.
UTF-8 is one way to encode the Unicode character set. It is a variable-width encoding (i.e. different characters can have different sizes) and it was designed for backwards compatibility with the former ASCII scheme. As such, the ASCII character set will remain one byte in size whilst any other characters are two or more bytes in size. UTF-16 is another way to encode the Unicode character set. In comparison to UTF-8, characters are encoded as either a set of one or two 16-bit code units.
As stated in other comments, the ‘a’ character occupies a single byte while ‘ա’ occupies two bytes, denoting a UTF-8 encoding. The extra byte in the original question was due to the existence of a newline character at the end.

Ernie válasza után:


1 byte is 8 bits, and can thus represent up to 256 (2^8) different values.
For languages that require more possibilities than this, a simple 1 to 1 mapping can not be maintained, so more data is needed to store a character.
Note that generally, most encodings use the first 7 bits (128 values) for ASCII characters. That leaves the 8th bit, or 128 more values for more characters. Add in accented characters, Asian languages, Cyrillic, etc. and you can easily see why 1 byte is not sufficient for holding all characters.

Van valami a magyarázathoz? Hangzik ki a megjegyzésekben. Szeretne többet válaszolni a többi technikus-tudós Stack Exchange felhasználóiról? Nézze meg a teljes vitafonalat itt.

Ajánlott:

Hogyan lehet felgyorsítani az animációt ahhoz, hogy az Android egyre gyorsabban érzi magát

Az Android-eszközök animációkat jelenítenek meg, amikor alkalmazások, ablakok és különböző menük között váltanak át. Az animációk gyakran csúszósnak tűnnek, de időbe telik, és néha még akkor is okozhatják a telefont, ha az alacsony az erőforrásokon.

Miért írhatok 80 percnyi zenét egy CD-re, ha a saját MP3-eim kevesebb mint 700 MB szabad helyet foglalnak el?

CD írása közben vagy lemezként vagy audio CD-ként írhatja. Az adat CD-lemez legfeljebb 700 MB lehet, míg az audio CD 80 percnyi hangot képes tárolni. Ha 200 MB MP3-fájlt tartalmaz, amely akár három órányi zenét is tartalmaz, akkor még mindig csak 80 percet írhat a lemezre. Miért van az, hogy?

Miért szerepel a billentyűzet része a rossz karaktereknek?

Függetlenül attól, hogy ez a macska a billentyűzeten van, a véletlenszerű billentyűket, vagy a billentyűzet katasztrófájának valamilyen más formáját ölelő kisgyerek, a billentyűzetünk hirtelen elkezdhet furcsa és frusztráló viselkedést mutatni. Ezzel kapcsolatban a mai SuperUser Q & A hozzászólás néhány megoldást tartalmaz az olvasó laptop billentyűzetválságára.

Hogyan változtassa meg a meglévő íróasztalát ahhoz, hogy egy álló íróasztal legyen

Akár attól tart, hogy divatos, vagy az előnyöket próbálja ki tesztelni, az egyik legnagyobb akadály az állandó íróasztalon a költségek. Íme néhány ingyenes asztali lehetőség, amelyet ingyen hozhat létre.

Írja be az ékezetes és speciális karaktereket az angol billentyűzet használatával

A WizKey lehetővé teszi billentyűparancsok létrehozását az ékezetes és különleges karakterek egyszerű írásához az angol billentyűzet segítségével. Olyan makrókat is létrehozhat, amelyek beilleszthetik a teljes bekezdéseket bárhová is szükségük van. Unicode támogatással is rendelkezik.

Miért kell az angol karaktereknek kevesebb forrást igényelnie ahhoz, hogy azokat ábrázolja, mint a karaktereket más ábécékben?

Tartalomjegyzék:

Videó: Miért kell az angol karaktereknek kevesebb forrást igényelnie ahhoz, hogy azokat ábrázolja, mint a karaktereket más ábécékben?

A kérdés

A válasz

Ajánlott:

Hogyan lehet felgyorsítani az animációt ahhoz, hogy az Android egyre gyorsabban érzi magát

Miért írhatok 80 percnyi zenét egy CD-re, ha a saját MP3-eim kevesebb mint 700 MB szabad helyet foglalnak el?

Miért szerepel a billentyűzet része a rossz karaktereknek?

Hogyan változtassa meg a meglévő íróasztalát ahhoz, hogy egy álló íróasztal legyen

Írja be az ékezetes és speciális karaktereket az angol billentyűzet használatával

Ossza meg a szövegeket és a képeket az Easy Way segítségével a JustPaste.it-val

Használja az Office 2010 egyszerűsített nyomtatási funkcióit

A Windows 7 tanulása: Fényképek kezelése Live Photo Gallery segítségével

Időjárás-előrejelzés hozzáadása a Google Chrome-hoz

TV programozás TV-tuner nélkül A Windows 7 Media Center

Küldés 2010-es dokumentumok kezelése a weben az Office Upload Center segítségével

A szöveg és képek egyszerűbbé tétele a Windows 7 nagyítójával

Hogyan aktiválhatja Free Office 2007 és 2010 Tech Garancia frissítését

A legjobb módja annak, hogy ingyenes konferenciahívásokat kezdeményezzenek

Javítsa az ePub e-könyvek minõségét a Sigil segítségével

Hogyan adjunk hozzá Facebook Frame és Profile Picture Guard a fotókhoz

A VPN beállítása a Windows 10 rendszerben

FreeFileSync - Ingyenes összehasonlítás és szinkronizálás szoftver

A PotPlayer egy szilárd médialejátszó a fejlett felhasználók számára

A Microsoft Word változásainak és megjegyzéseinek követése