Inafasiriwa moja kwa moja kutoka kwa Wikipedia ya Kiingereza na Tafsiri ya Google

Tabia ya encoding

Katika kompyuta, encoding ya tabia hutumiwa kuwakilisha repertoire ya wahusika kwa aina fulani ya mfumo wa encoding . [1] Kulingana na kiwango cha abstraction na muktadha, alama za kificho zinazohusiana na nafasi ya nambari inayoweza kuonekana inaweza kuonekana kama ruwaza ndogo , octets , namba za asili, vurugu vya umeme, nk. Encoding ya tabia hutumiwa katika kuhesabu , kuhifadhi data , na uhamisho wa data ya maandishi. "Tabia ya kuweka", "ramani ya tabia", "codeset" na " ukurasa wa msimbo " ni kuhusiana, lakini sio sawa, maneno.

Nambari za tabia za mwanzo zinazohusiana na telegraph ya macho au umeme zinaweza tu kuwakilisha sehemu ndogo ya wahusika kutumika katika lugha zilizoandikwa, wakati mwingine huzuiwa barua za juu, namba na punctuation tu. Gharama ya chini ya uwakilishi wa data ya digital katika mifumo ya kisasa ya kompyuta inaruhusu nambari za tabia za ufafanuzi zaidi (kama vile Unicode ) ambazo zinawakilisha wahusika wengi kutumika katika lugha nyingi zilizoandikwa. Tabia ya encoding kutumia viwango vya kimataifa vinavyokubalika inaruhusu kuingiliana duniani kote kwa maandishi katika mfumo wa elektroniki.

Yaliyomo

Historia

Marejeo mapema ya binary ni pamoja na cipher ya Bacon , Braille , Bendera za Kimataifa za ishara ya baharini , na encoding ya tarakimu nne za Kichina kwa code ya Kichina ya telegraph ( Hans Schjellerup , 1869). Mifano ya kawaida ya mifumo ya encoding ya tabia ni pamoja na kanuni ya Morse , kanuni ya Baudot , Kanuni ya Marekani ya Kubadilisha Habari ( ASCII ) na Unicode . [2]

Nakala ya Morse ilianzishwa mwaka wa 1840 na inatumiwa kufuta kila barua ya alfabeti ya Kilatini , kila tarakimu ya Kiarabu , na wahusika wengine kupitia mfululizo wa vyombo vya habari vya muda mrefu na vifupi vya ufunguo wa telegraph . Uwakilishi wa wahusika walio encoded kwa kutumia Msimbo wa Morse ulikuwa tofauti kwa urefu.

Kanuni ya Baudot , encoding ya tano, iliundwa na Γ‰mile Baudot mnamo mwaka 1870, yenye hati miliki mwaka 1874, iliyobadilishwa na Donald Murray mwaka wa 1901, na iliyowekwa na CCITT kama Alphabet ya Kimataifa ya Telegraph No. 2 (ITA2) mwaka 1930.

Fieldata , code sita au saba-bit, ililetwa na Shirika la Jeshi la Marekani la Mwishoni mwa miaka ya 1950.

IBM ya Binary Coded Decimal ( BCD ) ilikuwa mpango wa encoding sita-bit kutumika na IBM katika mapema mwaka 1959 katika 1401 na 1620 kompyuta zake, na katika 7000 Series yake (kwa mfano, 704, 7040, 709 na 7090 kompyuta), kama vile katika pembeni zinazohusiana. BCD iliendeleza encoding rahisi ya nne-bit ya encoding ya nambari ikiwa ni pamoja na wahusika wa herufi na maalum, kupiga ramani kwa urahisi kwa encoding kadi ya punch ambayo tayari imetumika kwa ujumla. Ilikuwa ni mtangulizi wa EBCDIC.

ASCII ilianzishwa mwaka wa 1963 na ni mpango wa encoding saba-encoding kutumika kwa encode barua, nambari, alama, na nambari za udhibiti wa kifaa kama nambari za muda mrefu zilizobaki kutumia integers .

Binadamu ya IBM iliyopanuliwa ya kuingiliana ya kiwango cha juu (kawaida huchapishwa kama EBCDIC) ni mpango wa encoding wa nane ambao ulianzishwa mwaka 1963.

Vikwazo vya seti hizo hivi karibuni vilikuwa wazi, na mbinu kadhaa za matangazo zilianzishwa kupanua. Uhitaji wa kuunga mkono mifumo zaidi ya kuandika kwa lugha tofauti, ikiwa ni pamoja na familia ya CJK ya maandishi ya Asia ya Mashariki, inahitaji msaada kwa idadi kubwa ya wahusika na ilihitaji njia ya utaratibu wa encoding ya tabia badala ya mbinu za awali za matangazo.

Katika kujaribu kuendeleza encodings ya tabia ya kila mahali, watafiti katika miaka ya 1980 walikabiliwa na shida kwamba kwa upande mmoja, ilionekana ni muhimu kuongeza bits zaidi ili kubeba wahusika wa ziada, lakini kwa upande mwingine, kwa watumiaji wa kuweka ndogo ya tabia ya alfabeti ya Kilatini (ambao bado yalikuwa wengi wa watumiaji wa kompyuta), bits hizo za ziada zilikuwa taka kubwa ya rasilimali za muda mfupi na za gharama kubwa za kompyuta (kama ambazo zinaweza kutolewa kwa watumiaji vile).

Suluhisho la maelewano ambalo lilikuta hatimaye na kuendelezwa kuwa Unicode lilikuwa kuvunja dhana (kupatikana kwa nambari za telegraph) ambazo kila tabia inapaswa kuzingatia moja kwa moja mlolongo fulani wa bits. Badala yake, wahusika wangepangwa mapema kwa uwakilishi wa kati kwa njia ya idadi ya abstract inayoitwa alama za kificho . Vipengele vya kanuni vitasimamishwa kwa njia mbalimbali na kwa idadi tofauti za bits kwa kila tabia (vitengo vya kificho) kulingana na muktadha. Ili kuingiza alama za msimbo wa juu zaidi kuliko urefu wa kitengo cha kificho, kama vile juu ya 256 kwa vitengo 8-bit, suluhisho lilikuwa kutekeleza encodings za upana-tofauti ambapo mlolongo wa kutoroka ungeonyesha kwamba bits zinazofuata zinapaswa kufutwa kama hatua ya juu ya kificho.

Terminology

Terminology kuhusiana na kitengo cha kanuni:

  • Tabia ni kitengo kidogo cha maandishi ambayo ina thamani ya semantic.
  • Setting tabia ni mkusanyiko wa wahusika ambayo inaweza kutumika kwa lugha nyingi.

Mfano: Uwekaji wa tabia ya Kilatini unatumiwa na Kiingereza na lugha nyingi za Ulaya, ingawa kuweka tabia ya Kigiriki hutumiwa tu kwa lugha ya Kigiriki.

  • Kuweka tabia ya tabia ni kuweka tabia ambayo kila tabia inafanana na namba ya pekee.
  • Nambari ya kificho ya kuweka coded tabia ni thamani yoyote kuruhusiwa katika kuweka tabia.
  • Kitengo cha kificho ni mlolongo mdogo unaotumiwa kufuatilia kila tabia ya repertoire ndani ya fomu ya encoding iliyotolewa.
Repertoire ya Tabia (seti ya abstract ya wahusika)

Repertoire ya tabia ni seti ya abstract ya herufi zaidi ya milioni moja zilizopatikana katika maandiko mbalimbali ikiwa ni pamoja na Kilatini, Cyrillic, Kichina, Kikorea, Kijapani, Kiebrania, na Kiaramu .

Ishara nyingine kama vile notation ya muziki pia imejumuishwa katika repertoire ya tabia. Vipimo vyote vya Unicode na GB18030 vina repertoire ya tabia. Kama wahusika mpya wanaongezwa kwa kiwango kimoja, kiwango kingine pia kinaongeza wale wahusika, ili kudumisha usawa.

Ukubwa wa kitengo cha kifaa ni sawa na kipimo kidogo kwa encoding maalum:

  • Kitengo cha kanuni katika US-ASCII kina 7 bits;
  • Kitengo cha kanuni katika UTF-8 , EBCDIC na GB18030 kina 8 bits;
  • Kitengo cha kanuni katika UTF-16 kina 16 bits;
  • Kitengo cha kanuni katika UTF-32 kina 32 bits.

Mfano wa kitengo cha kificho: Fikiria kamba ya barua "abc" ikifuatiwa na U + 10400 𐐀 DESERET CAPITAL LETTER LONG I (iliyoonyeshwa na 1 char32_t, 2 char16_t au 4 char8_t). Kamba hiyo ina:

  • wahusika wanne;
  • pointi nne za kanuni
  • ama:
    vitengo vinne vya UTF-32 (00000061, 00000062, 00000063, 00010400)
    vitengo vitano vya code katika UTF-16 (0061, 0062, 0063, d801, dc00), au
    vitengo saba vya utunzaji katika UTF-8 (61, 62, 63, f0, 90, 90, 80).

Ili kuonyesha tabia katika Unicode, thamani ya hexadecimal inafanyika kabla ya kamba 'U +'. Vipengele vyema vya msimbo wa halali kwa kiwango cha Unicode ni U + 0000 hadi U + 10FFFF, pamoja, imegawanyika katika ndege 17, zilizotambuliwa na namba 0 hadi 16. Wahusika katika upeo wa U + 0000 hadi U + FFFF wako kwenye ndege 0 , inayoitwa Ndege ya Msingi ya Mingi (BMP). Ndege hii ina wahusika wengi wa kawaida. Wahusika katika U + 10000 hadi U + 10FFFF katika ndege nyingine huitwa wahusika wa ziada .

Jedwali lifuatayo linaonyesha mifano ya maadili ya uhakika:

Tabia Nambari ya msimbo wa Unicode Glyph
Kilatini A U + 0041 Ξ‘
Kilatini mkali S U + 00DF ß
Han kwa Mashariki U + 6771 東
Ampersand U + 0026 &
Mchapishaji wa kuvutia U + 00A1 Β‘
Ishara ya sehemu U + 00A7 Β§

Nambari ya kificho inawakilishwa na mlolongo wa vitengo vya kanuni. Ramani inaelezewa na encoding. Kwa hivyo, idadi ya vitengo vya kanuni zinazohitajika kuwakilisha sehemu ya kificho inategemea encoding:

  • UTF-8: ramani ya alama ya ramani kwa mlolongo wa vitengo moja, vitatu, vitatu au vinne.
  • UTF-16: vitengo vya kanuni ni mara mbili kwa muda mrefu kama vitengo vya 8-bit code. Kwa hiyo, alama yoyote ya kificho yenye thamani ya chini ya U + 10000 imechapishwa kwa kitengo kimoja. Msimbo wa kanuni una thamani ya U + 10000 au zaidi unahitaji vitengo viwili vya kificho kila. Hizi jozi za vitengo vya kificho zina muda wa kipekee katika UTF-16: "Vipande vya Unicode".
  • UTF-32: kitengo chombo cha 32-bit ni kikubwa cha kutosha kwamba kila uhakika wa kificho umeonyeshwa kama kitengo kimoja.
  • GB18030: vitengo vidokezo vingi kwa uhakika wa kanuni ni kawaida, kwa sababu ya vitengo vidogo vidogo. Vipengee vya kanuni vinapangiliwa kwa vitengo kimoja, viwili, au vinne. [3]

Unicode mfano wa encoding

Unicode na kiwango chake kimoja, ISO / IEC 10646 Universal Character Set , pamoja hujumuisha kisasa, umoja wa encoding tabia. Badala ya wahusika wa ramani kwa moja kwa moja kwa octets ( bytes ), wao hufafanua tofauti ya wahusika, namba za asili (nambari za msimbo ), jinsi idadi hizo zimehifadhiwa kama mfululizo wa namba za kawaida za kawaida (vitengo vya nambari), na hatimaye jinsi hizo vitengo vinatajwa kama mkondo wa octets. Kusudi la kuharibiwa hii ni kuanzisha seti ya kila kitu ya wahusika ambayo yanaweza kuingizwa kwa njia mbalimbali. [4] Kuelezea mfano huu kwa usahihi inahitaji maneno sahihi zaidi kuliko "kuweka tabia" na "encoding tabia". Maneno yaliyotumika katika mfano wa kisasa yanafuata: [4]

Repertoire ya tabia ni seti kamili ya wahusika ambao husaidiwa na mfumo. Repertoire inaweza kufungwa, yaani hakuna nyongeza zinaoruhusiwa bila kujenga hali mpya (kama ilivyo kwa ASCII na zaidi ya mfululizo wa ISO-8859), au inaweza kufunguliwa, kuruhusu kuongeza (kama ilivyo kwa Unicode na kwa kiasi kidogo cha kurasa za Windows ). Wahusika katika repertoire fulani huonyesha maamuzi yaliyofanywa kuhusu jinsi ya kugawanya mifumo ya kuandika katika vitengo vya msingi vya habari. Vipengele vya msingi vya alphabets ya Kilatini , Kigiriki na Cyrillic vinaweza kuharibiwa katika barua, tarakimu, punctuation, na wahusika kadhaa maalum kama vile nafasi, ambayo inaweza yote kupangwa kwa utaratibu rahisi mfululizo ambao huonyeshwa kwa utaratibu huo wao soma. Lakini hata kwa alphabets hizi, diacritics husababisha matatizo: wanaweza kuonekana kama sehemu ya tabia moja yenye barua na diacritic (inayojulikana kama tabia iliyopangwa), au kama wahusika tofauti. Wa zamani inaruhusu mfumo wa utunzaji wa maandishi rahisi zaidi lakini mwisho unaruhusu mchanganyiko wowote wa barua / diacritic kutumiwa kwa maandiko. Ligatures husababisha matatizo sawa. Mifumo mingine ya kuandika, kama Kiarabu na Kiebrania, imewakilishwa na repertoires za tabia nyingi zaidi kutokana na haja ya kuzingatia mambo kama maandishi ya bidirectional na glyphs ambazo zimeunganishwa pamoja kwa njia tofauti kwa hali tofauti.

Kuweka tabia ya coded (CCS) ni kazi inayoonyesha wahusika na alama za kificho (kila msimbo wa kanuni unawakilisha tabia moja). Kwa mfano, katika repertoire iliyotolewa, barua kuu "A" katika alfabeti ya Kilatini inaweza kuwakilishwa na namba ya kanuni 65, tabia "B" hadi 66, na kadhalika. Seti nyingi za coded character inaweza kushiriki repertoire sawa; kwa mfano ISO / IEC 8859-1 na IBM kurasa za kurasa 037 na 500 wote hufunika repertoire sawa lakini ramani yao kwa pointi tofauti code.

Fomu ya encoding ya aina (CEF) ni ramani ya alama ya vitambulisho kwa vitengo vya kificho ili kuwezesha kuhifadhi katika mfumo unaowakilisha idadi kama utaratibu mdogo wa urefu uliowekwa (yaani kivitendo mfumo wowote wa kompyuta). Kwa mfano, mfumo unaohifadhi maelezo ya nambari katika vitengo 16-bit unaweza kueleza moja kwa moja pointi za kificho 0 hadi 65,535 katika kila kitengo, lakini pointi kubwa zaidi (kusema, 65,536 hadi 1.4 milioni) zinaweza kusimamishwa kwa kutumia vitengo vingi vya bitana 16. Mawasiliano hii inaelezwa na CEF.

Kisha, mpango wa encoding wa tabia (CES) ni ramani ya vitengo vya kanuni kwa mlolongo wa octets ili kuwezesha kuhifadhi kwenye mfumo wa faili wa octet au uhamisho juu ya mtandao wa octet. Miradi rahisi ya encoding ya tabia ni pamoja na UTF-8 , UTF-16BE , UTF-32BE , UTF-16LE au UTF-32LE ; miradi ya encoding ya kiwanja, kama vile UTF-16 , UTF-32 na ISO / IEC 2022 , kubadili kati ya miradi kadhaa rahisi kwa kutumia alama za kuagiza oti au safu za kutoroka ; Mipango ya kuimarisha kujaribu kupunguza idadi ya bytes kutumika kwa kila kitengo kitengo (kama vile SCSU , BOCU , na Punycode ).

Ingawa UTF-32BE ni CES rahisi, mifumo mingi inayofanya kazi na Unicode hutumia UTF-8 , ambayo ina nyuma inaambatana na ASCII iliyo na fasta-upana na ramani za alama za Unicode kwa utaratibu wa kutofautiana wa octets, au UTF-16BE , ambayo ni nyuma inakabiliana na UCS-2BE ya upana wa fasta na ramani ya nambari za msimbo wa Unicode kwa utaratibu wa upana wa upana wa maneno 16-bit. Angalia kulinganisha kwa encodings ya Unicode kwa majadiliano ya kina.

Hatimaye, kunaweza kuwa na itifaki ya ngazi ya juu ambayo hutoa maelezo ya ziada ili kuchagua tofauti fulani ya tabia ya Unicode , hasa ambapo kuna tofauti za kikanda ambazo zimeunganishwa katika Unicode kama tabia sawa. Mfano ni sifa ya XML xml: lang.

Mfano wa Unicode hutumia ramani ya tabia ya mfumo wa kihistoria ambayo huwapa moja kwa moja mlolongo wa wahusika kwa mlolongo wa ote, unaofunika wote wa CCS, CEF na CES tabaka. [4]

Tabia za tabia, ramani za tabia na kurasa za msimbo

Kwa kihistoria, maneno "encoding tabia", "ramani ya tabia", "tabia ya kuweka" na " ukurasa wa kificho " zilikuwa sawa katika sayansi ya kompyuta , kama kiwango hicho kitaelezea repertoire ya wahusika na jinsi ya kuwa encoded katika mkondo wa vitengo vya kanuni - kwa kawaida na tabia moja kwa kitengo cha kanuni. Lakini sasa maneno yamehusiana lakini maana tofauti, kutokana na jitihada za viwango vya viwango vya kutumia neno la kisasa sahihi wakati wa kuandika juu na kuunganisha mifumo mbalimbali ya encoding. [4] Bila kujali, maneno haya bado yanatumiwa kwa usawa, kwa kuweka tabia kuwa karibu kabisa.

" Msimbo wa kificho " mara nyingi unamaanisha kificha -msingi ya kificho, lakini kuhusiana na baadhi ya safu ya encodings (kifuniko maandiko tofauti), ambapo wahusika wengi huwa na nambari sawa katika kurasa nyingi zaidi au zote hizo. Suites maarufu ya ukurasa wa kificho ni "Windows" (kulingana na Windows-1252) na "IBM" / "DOS" (kulingana na ukurasa wa 437 ), angalia ukurasa wa msimbo wa Windows kwa maelezo zaidi. Wengi, lakini si wote, encodings inajulikana kama kurasa za code ni encodings single-byte (lakini angalia octet juu ya ukubwa byte.)

Usanidi wa Tabia ya Uwakilishi wa Tabia ya IBM (CDRA) huchagua kwa vitambulisho vya kuweka vigezo vya tabia ( CCSIDs ) na kila mmoja huitwa "charset", "kuweka tabia", "ukurasa wa msimbo", au "CHARMAP". [4]

Neno "msimbo wa kificho" haufanyikani katika Unix au Linux ambapo "charmap" inapendekezwa, kwa kawaida katika hali kubwa ya maeneo.

Inalinganishwa na CCS hapo juu , "tabia ya encoding" ni ramani kutoka kwa wahusika wa abstract na maneno ya kificho . A "kuweka tabia" katika HTTP (na MIME ) parlance ni sawa na tabia encoding (lakini si sawa na CCS).

"Ukodishaji wa urithi " ni neno wakati mwingine hutumiwa kutafakari encodings ya tabia ya zamani, lakini kwa usawa wa hisia. Matumizi yake mengi ni katika muktadha wa Unicodification , ambako inahusu encodings ambazo hazifichi pointi zote za Unicode, au, kwa ujumla, kwa kutumia repertoire tofauti ya tabia: pointi kadhaa za kanuni zinazowakilisha tabia moja ya Unicode, [5] au versa (angalia mfano wa ukurasa wa 437 ). Vyanzo vingine vinataja kificho kama urithi tu kwa sababu imetangulia Unicode. [6] Wote wa kurasa za msimbo wa Windows hujulikana kama urithi, wote kwa sababu wanashikilia Unicode na kwa sababu hawawezi kuwakilisha alama zote za Nambari za Unicode 21 zinazowezekana.

Tabia ya tafsiri ya encoding

Kwa sababu ya kuwa na mbinu nyingi za kuunganisha tabia za matumizi (na haja ya utangamano wa nyuma na data zilizohifadhiwa), programu nyingi za kompyuta zimeandaliwa ili kutafsiri data kati ya mipango ya encoding kama fomu ya data ya usafiri . Baadhi ya haya ni hapa chini.

Msalaba wa msalaba :

  • Vivinjari vya wavuti - vivinjari vya kisasa zaidi vya wavuti vinajumuisha kugundua kificho ya encoding. Kwenye Firefox 3, kwa mfano, angalia Mtazamo wa Kuangalia / Tabia Subcenu.
  • Programu ya iconv na programu na API iliyorekebishwa ili kubadilisha encodings
  • programu ya luit ambayo inabadilisha encoding ya pembejeo na pato kwa programu zinazoendesha interactively
  • kubadilisha_encoding.py - Huduma ya msingi ya Python kubadilisha faili za maandishi kati ya encodings ya kiholela na mwisho wa mstari. [7]
  • decodeh.py - algorithm na moduli kwa heuristically nadhani encoding ya kamba. [8]
  • Vipengele vya Kimataifa vya Unicode - Seti ya maktaba ya C na Java kutekeleza uongofu wa charset. Uconv inaweza kutumika kutoka ICU4C.
  • chardet - Hii ni tafsiri ya msimbo wa kuambukizwa kwa Mozilla -encoding moja kwa moja katika lugha ya kompyuta ya Python.
  • Matoleo mapya ya jaribio la amri ya faili la Unix kufanya uamuzi wa msingi wa encoding ya tabia (pia inapatikana kwenye Cygwin ).
  • charset - Maktaba ya template ya C + + yenye interface rahisi ya kubadilisha kati ya mito ya C ++ \ defined user. charset ilifafanua seti nyingi za tabia na inakuwezesha kutumia viundo vya Unicode na usaidizi wa ujinga .

Unix-kama :

  • cmv - chombo rahisi kwa faili za usafiri. [9]
  • convmv - kubadilisha jina la faili kutoka kwa kificho moja hadi nyingine. [10]
  • cstocs - kubadilisha maudhui ya faili kutoka kwa encoding moja hadi nyingine kwa lugha za Kicheki na Kislovakia.
  • inachambua encodings kwa faili zilizopewa maandishi. [11]
  • rejea - kubadilisha maudhui ya faili kutoka kwenye kificho moja hadi nyingine [12]
  • utrac - kubadilisha yaliyomo faili kutoka encoding moja hadi nyingine. [13]

Windows :

  • Kuandika.Convert - .NET API [14]
  • MultiByteToWideChar / WideCharToMultiByte - Badilisha kutoka ANSI hadi Unicode & Unicode kwa ANSI [15]
  • cscvt - tabia kuweka uongofu chombo [16]
  • inachambua encodings kwa faili zilizopewa maandishi. [17]

Angalia pia

  • Msimbo wa Alt
  • Tabia ya encodings katika HTML
  • Tabia ya encoding - makala zinazohusiana na encoding ya tabia kwa ujumla
  • Tabia seti - makala zinazoonyesha encodings maalum ya tabia
  • Uwakilishi wa hexadecimal
  • Tabia ya tabia ya Mojibake imewekwa kinyume.
  • Mojikyo - mfumo ("glyph set") unaojumuisha michoro zaidi ya 100,000 ya Kichina, kisasa na ya zamani, maarufu na isiyofichwa.
  • TRON , sehemu ya mradi wa TRON, ni mfumo wa encoding ambao hautumii Han Unification; badala yake, inatumia "kanuni za kudhibiti" kubadili kati ya "ndege" za 16-bit za wahusika.
  • Tabia ya Universal Weka wahusika
  • Kupiga picha kwa kupiga picha - kutumika katika programu zingine wakati tabia ya encoding ya metadata haipatikani

Tabia ya kawaida Usimbaji

  • ISO 646
    • ASCII
  • EBCDIC
    • CP37
    • CP930
    • CP1047
  • ISO 8859 :
    • ISO 8859-1 Ulaya ya Magharibi
    • ISO 8859-2 Ulaya ya Magharibi na ya Kati
    • ISO 8859-3 Ulaya ya Magharibi na Ulaya Kusini (Kituruki, Kimalta pamoja na Kiesperanto)
    • ISO 8859-4 Ulaya ya Magharibi na nchi za Baltic (Lithuania, Estonia, Latvia na Lapp)
    • ISO 8859-5 alfabeti ya Kiyrilli
    • ISO 8859-6 Kiarabu
    • ISO 8859-7 Kigiriki
    • ISO 8859-8 Kiebrania
    • ISO 8859-9 Ulaya ya Magharibi na kubadilishwa kuweka tabia ya Kituruki
    • ISO 8859-10 Ulaya ya Magharibi na tabia ya usawa iliyowekwa kwa lugha za Nordic, ikiwa ni pamoja na kuweka kamili ya Kiaislandi
    • ISO 8859-11 Kitai
    • ISO 8859-13 Lugha za Baltic pamoja na Kipolishi
    • ISO 8859-14 Lugha za Celtic (Gaelic ya Ireland, Scottish, Welsh)
    • ISO 8859-15 Aliongeza saini ya Euro na rationalisations nyingine kwa ISO 8859-1
    • ISO 8859-16 Lugha za Ulaya za Kati, Mashariki na Mashariki (Kialbania, Kibosnia, Kikroeshia, Hungarian, Kipolishi, Kiromania, Kiserbia na Kislovenia, lakini pia Kifaransa, Kijerumani, Kiitaliano na Kiayalandi Gaelic)
  • CP437 , CP720 , CP737 , CP850 , CP852 , CP855 , CP857 , CP858 , CP860 , CP861 , CP862 , CP863 , CP865 , CP866 , CP869 , CP872
  • Sifa za maandishi ya MS-Windows :
    • Windows-1250 kwa lugha za Ulaya ya Kati ambazo hutumia script ya Kilatini, (Kipolishi, Kicheki, Kislovakia, Hungarian, Kislovenia, Kisabia, Kroeshia, Kibosnia, Kiromania na Kialbeni)
    • Windows-1251 kwa alphabets ya Cyrillic
    • Windows-1252 kwa lugha za Magharibi
    • Windows-1253 kwa Kigiriki
    • Windows-1254 kwa Kituruki
    • Windows-1255 kwa Kiebrania
    • Windows-1256 kwa Kiarabu
    • Windows-1257 kwa lugha za Baltic
    • Windows-1258 kwa Kivietinamu
  • Mac OS Kirumi
  • KOI8-R , KOI8-U , KOI7
  • MIK
  • ISCII
  • TSCII
  • VISCII
  • JIS X 0208 ni kiwango kilichotumiwa sana kwa encoding ya tabia ya Kijapani ambayo ina aina kadhaa za encoding.
    • Shift ya JIS ( Kanuni ya Microsoft ukurasa wa 932 ni lugha ya Shift_JIS)
    • EUC-JP
    • ISO-2022-JP
  • JIS X 0213 ni toleo la kupanuliwa la JIS X 0208.
    • Shift_JIS-2004
    • EUC-JIS-2004
    • ISO-2022-JP-2004
  • Guobiao ya Kichina
    • GB 2312
    • GBK (Kanuni ya Microsoft ukurasa wa 936)
    • GB 18030
  • Taiwan Big5 (tofauti kubwa zaidi ni Microsoft Code ukurasa 950 )
    • Hong Kong HKSCS
  • Kikorea
    • KS X 1001 ni Kikorea cha mbili-byte tabia ya encoding standard
    • EUC-KR
    • ISO-2022-KR
  • Unicode (na subsets yake, kama vile 16-bit 'Basic Multilingual Ndege')
    • UTF-8
    • UTF-16
    • UTF-32
    • GB 18030
  • ANELI au ISO / IEC 6937

Marejeleo

Kusoma zaidi

  • * Mackenzie, Charles E. (1980). Coded Character Sets, History and Development . The Systems Programming Series (1 ed.). Addison-Wesley Publishing Company, Inc. ISBN 0-201-14460-3 . LCCN 77-90165 .

Viungo vya nje