Wednesday, May 6, 2020

History of Unicode




Unicode's origins began in 1987, with the use of Xerox character code (XCCS), and the practicality of creating a universal character set with Joe Becker at Xerox with Lee Collins and Apple's Mark Davis. In August 1988, with the additional input of Peter Fenwick and Dave Opstad, Joe Becker published a draft proposal for an international / multilingual text encoding called "Unicode". He explained that the name "Unicode" was intended to suggest a unique, integrated, universal coding.

Becker cited a 16-bit format in this document called Unicode 88

Unicode aims to meet the need for reliable, world class coding that can work. Unicode can be roughly referred to as "wide body ASCII" and it can extend up to 16 bits to include characters in all living languages ​​in the world. In a properly designed layout, 16 bits per character is not enough
His original 16 bit design was based on the assumption that only modern scripts and fonts would be required to be encoded.

Unicode places a high priority on ensuring usability for the future rather than preserving past antiquities. Unicode aims at first publishing characters in modern manuscripts (eg, all the newspapers and magazines printed in the world in 1988), much less than 214 = 16,384. Beyond modern-use characters, everything else can be defined as obsolete or rare; These are better candidates for registering personal use than forming a public list of commonly used Unicodes.

In early 1989, the Unicode Working Group was expanded by Ken Whistler and Mike Carnagan of Metaphor, Karen Smith-Yoshimura of RLG, and Joan Alliprand of Glenn Wright of Sun Microsystems, and Rick McGowan of Microsoft and NeXT in 1990. By the end of the 1990s, much work on mapping existing character coding standards had been completed and a final review draft of Unicode was ready.

The Unicode Convention was incorporated in California on January 3, 1991, and in October 1991 the first volume of the Unicode Standard was published. The second volume, covering Han ideology, was published in June 1992.

In 1996, Unicode 2.0 implemented a substitute character script, which allowed Unicode to no longer be limited to 16 bits.

This increased the Unicode code space to more than one million code points, allowing for the encoding of many historical scripts (eg Egyptian hieroglyphs) and thousands of rarely used or obsolete characters that were not expected to be encoded. Unicode characters, originally intended for kanji or Chinese characters, are often used as part of private and place-names and are rarely used, but are more essential than Unicode's original architecture.
Since 1992, Microsoft has used the Apple Unicode name in place of the Unicode for the Microsoft TypeType Specification Version 1.0 naming table platform platform.

----------------------------------------------------------------------------------------------

ඉතිහාසය
1980 සිට සෙරොක්ස් අක්ෂර කේත ප්රමිතිය (XCCS) සමඟ ඇති අත්දැකීම් මත පදනම්ව, යුනිකෝඩ් වල මූලාරම්භය 1987 දක්වා, සෙරොක්ස් හි ජෝ බෙකර් සමඟ ලී කොලින්ස් සහ ඇපල්හි මාක් ඩේවිස් සමඟ විශ්ව චරිත කට්ටලයක් නිර්මාණය කිරීමේ ප්රායෝගිකභාවය සොයා බැලීමට පටන් ගත්හ. පීටර් ෆෙන්වික් සහ ඩේව් ඔප්ස්ටැඩ්ගේ අතිරේක ආදානය සමඟ, ජෝ බෙකර් 1988 අගෝස්තු මාසයේදී "යුනිකෝඩ් ලෙස තාවකාලිකව හැඳින්වෙන" අන්තර්ජාතික / බහුභාෂා පෙළ අක්ෂර කේතන ක්රමයක් සඳහා කෙටුම්පත් යෝජනාවක් ප්රකාශයට පත් කළේය. "යුනිකෝඩ්" යන නම අද්විතීය, ඒකාබද්ධ, විශ්වීය කේතීකරණයක් යෝජනා කිරීමට අදහස් කරන බව ඔහු පැහැදිලි කළේය.

යුනිකෝඩ් 88 ලෙස නම් කර ඇති මෙම ලේඛනයේ බෙකර් විසින් බිටු 16 අක්ෂර ආකෘතියක් ගෙනහැර දැක්වීය

යුනිකෝඩ් හි අරමුණ වන්නේ වැඩ කළ හැකි, විශ්වාසදායක ලෝක පෙළ කේතීකරණයේ අවශ්යතාවය සපුරාලීමයි. යුනිකෝඩ් දළ වශයෙන් "පුළුල් ශරීර ASCII" ලෙස හැඳින්විය හැකි අතර එය ලොව සියලුම ජීවමාන භාෂාවල අක්ෂර ඇතුළත් කිරීම සඳහා බිටු 16 ක් දක්වා විහිදේ. නිසි ලෙස සැලසුම් කරන ලද සැලසුමක දී, අක්ෂරයකට බිටු 16 ක් මේ සඳහා ප්රමාණවත් නොවේ
ඔහුගේ මුල් බිට් 16 නිර්මාණය පදනම් වී ඇත්තේ නවීන භාවිතයේ ඇති ස්ක්රිප්ට් සහ අක්ෂර පමණක් කේතනය කිරීමට අවශ් වනු ඇතැයි යන උපකල්පනය මත

අතීත පුරාවස්තු සංරක්ෂණයට වඩා අනාගතය සඳහා උපයෝගීතාව සහතික කිරීමට යුනිකෝඩ් ඉහළ ප්රමුඛතාවයක් ලබා දෙයි. යුනිකෝඩ් අරමුණු කරන්නේ පළමු වරට නූතන පිටපත්වල ප්රකාශයට පත් කරන ලද අක්ෂර (උදා: 1988 දී ලොව මුද්රණය කරන ලද සියලුම පුවත්පත් සහ සඟරා වල එකතුවෙනි), ඒවායේ සංඛ්යාව 214 = 16,384 වඩා බෙහෙවින් අඩු . නවීන භාවිත අක්ෂරවලින් ඔබ්බට, අනෙක් සියල්ලම යල් පැන ගිය හෝ දුර්ලභ යැයි අර්ථ දැක්විය හැකිය; පොදුවේ ප්රයෝජනවත් යුනිකෝඩ් වල පොදු ලැයිස්තුව සැකසීමට වඩා පුද්ගලික භාවිතය ලියාපදිංචි කිරීම සඳහා මේවා හොඳ අපේක්ෂකයින් වේ.

1989 මුල් භාගයේදී යුනිකෝඩ් ක්රියාකාරී කණ්ඩායම පුළුල් කරන ලද්දේ මෙටාෆෝර් හි කෙන් විස්ලර් සහ මයික් කර්නාගන්, ආර්එල්ජී හි කැරන් ස්මිත්-යොෂිමුරා සහ ජොආන් අලිප්රන්ඩ් සහ සන් මයික්රො සිස්ටම්ස් හි ග්ලෙන් රයිට් සහ 1990 දී මයික්රොසොෆ්ට් සහ රික් මැක්ගොවන් NeXT හි කණ්ඩායමට එක්විය. 1990 අවසානය වන විට, පවතින අක්ෂර කේතීකරණ ප්රමිතීන් සිතියම් ගත කිරීමේ බොහෝ වැඩ කටයුතු අවසන් කර ඇති අතර යුනිකෝඩ් හි අවසාන සමාලෝචන කෙටුම්පතක් සූදානම් විය.

යුනිකෝඩ් සම්මේලනය කැලිෆෝනියාවේ 1991 ජනවාරි 3 වන දින සංස්ථාගත කරන ලදී,සහ 1991 ඔක්තෝම්බර් මාසයේදී යුනිකෝඩ් ප්රමිතියේ පළමු වෙළුම ප්රකාශයට පත් කරන ලදී. හැන් මතවාද ආවරණය වන දෙවන වෙළුම 1992 ජුනි මාසයේදී ප්රකාශයට පත් කරන ලදී.

1996 දී යුනිකෝඩ් 2.0 හි ආදේශක අක්ෂර යාන්ත්රණයක් ක්රියාත්මක කරන ලද අතර එමඟින් යුනිකෝඩ් තවදුරටත් බිටු 16 කට සීමා නොවීය.

මෙය යුනිකෝඩ් කේත අවකාශය මිලියනයකට අධික කේත ලක්ෂ්යයක් දක්වා වැඩි කළ අතර එමඟින් බොහෝ ඉතිහාසික පිටපත් (උදා: ඊජිප්තු හයිරොග්ලිෆ්) කේතනය කිරීමට ඉඩ ලබා දී ඇති අතර කේතීකරණ අවශ් යැයි අපේක්ෂා නොකළ කලාතුරකින් භාවිතා කරන ලද හෝ යල්පැනගිය අක්ෂර දහස් ගණනක් විය. යුනිකෝඩ් සඳහා මුලින් අදහස් නොකළ අක්ෂර අතර කලාතුරකින් භාවිතා වන කන්ජි හෝ චීන අක්ෂර භාවිතා වන අතර ඒවායින් බොහොමයක් පුද්ගලික හා ස්ථාන නාමවල කොටසක් වන අතර ඒවා කලාතුරකින් භාවිතා වන නමුත් යුනිකෝඩ් හි මුල් ගෘහ නිර්මාණ ශිල්පයට වඩා අත්යවශ් වේ.
1992 සිට මයික්රොසොෆ්ට් ටෘ ටයිප් පිරිවිතර අනුවාදය 1.0 නම් කිරීමේ වගුවේ වේදිකා හැඳුනුම්පත සඳහා යුනිකෝඩ් වෙනුවට ඇපල් යුනිකෝඩ් යන නම භාවිතා කළේය.

Origin and development (මූලාරම්භය සහ සංවර්ධනය)


Unicode has a clear purpose of overcoming the limitations of traditional character coding, which is defined by the ISO / IEC 8859 standard, which is widely used in many countries around the world but is largely incompatible. Most traditional scripts are a common problem that allows bilingual computers (usually using Latin fonts and native scripts), but not multilingual computer processing (arbitrary scripted computer combinations with each other).


Unicode, as intended, encodes units such as Glyphus, Glyphus, and Grapheme, which are underlying characters, rather than Glyphus (rendering). In the case of Chinese characters, this sometimes leads to controversy over the distinguishing of the underlying character from its variable glyphs.


In text processing, Unicode plays the role of giving each character a unique code point - a number, not a glyphus. In other words, the Unicode character is represented in an abstract way and the visual rendering (size, shape, font or style) is placed on other software such as a web browser or word processor. However, this simple objective is complicated by the relief provided by Unicode's creators in the hope of encouraging more Unicode adoption.

The first code mark 256 is identical to the content of ISO / IEC 8859-1, which translates the existing Western text.

In order to preserve the distinction of using heritage encoding, many of the essentially identical characters are encoded in different code locations, allowing them to be converted to Unicode (and backwards) without losing any information.

For example, the "full width formats" section of code points covers the full duplicate of the Latin alphabet, because the Chinese, Japanese, and Korean (CJK) letters contain two versions of these characters, the "full width" and the normal width that match the width of the CJK characters.


සාම්ප්රදායික චරිත කේතීකරණයේ සීමාවන් ඉක්මවා යාමේ පැහැදිලි අරමුණ යුනිකෝඩ් සතුව ඇත, එනම් ISO/ IEC 8859 ප්රමිතිය මගින් අර්ථ දක්වා ඇති අතර ඒවා ලෝකයේ  විවිධ රටවල පුළුල් භාවිතයක් සොයා ගන්නා නමුත් බොහෝ දුරට එකිනෙකට නොගැලපේ. බොහෝ සාම්ප්රදායික අක්ෂර කේතන ක්රම ද්විභාෂා පරිගණක සැකසීමට (සාමාන්යයෙන් ලතින් අක්ෂර සහ දේශීය ස්ක්රිප්ට් භාවිතා කිරීමට) ඉඩ ලබා දෙන පොදු ගැටළුවක් වන නමුත් බහුභාෂා පරිගණක සැකසුම් (එකිනෙකා සමඟ මිශ් අත්තනෝමතික ස්ක්රිප්ට් පරිගණක සැකසුම්) නොවේ.

යුනිකෝඩ්, අභිප්රාය අනුව, එවැනි අක්ෂර සඳහා විචල්ය (Glyphus) ග්ලයිෆස්  (විදැහුම්කරණයට) වඩා යටින් පවතින අක්ෂර - ග්රැෆීම් (Grapheme) සහ ග්රැෆීම් වැනි ඒකක සංකේතවත් කරයි. චීන අක්ෂර සම්බන්ධයෙන් ගත් කල, මෙය සමහර විට යටින් පවතින චරිතය එහි විචල් ග්ලයිෆස් වලින් වෙන්කර හඳුනා ගැනීම පිළිබඳ මතභේදයන්ට තුඩු දෙයි

පෙළ සැකසීමේදී, යුනිකෝඩ් විසින් එක් එක් අක්ෂර සඳහා අද්විතීය කේත ලක්ෂ්යයක් - අංකයක් මිස ග්ලයිෆස් එකක් ලබා දීමේ කාර්යභාරය ඉටු කරයි. වෙනත් වචන වලින් කිවහොත්, යුනිකෝඩ් චරිතයක් වියුක්ත ආකාරයකින් නිරූපණය කරන අතර දෘශ් විදැහුම්කරණය (ප්රමාණය, හැඩය, අකුරු හෝ ශෛලිය) වෙබ් බ්රව්සරයක් හෝ වචන සකසනයක් වැනි වෙනත් මෘදුකාංග වෙත තබයි. කෙසේවෙතත්, යුනිකෝඩ් වඩාත් වේගයෙන් සම්මත කර ගැනීම දිරිගැන්වීමේ බලාපොරොත්තුවෙන් යුනිකෝඩ් හි නිර්මාණකරුවන් විසින් ලබා දුන් සහන නිසා මෙම සරල අරමුණ සංකීර්ණ වේ.

පළමු කේත ලකුණු 256 ISO / IEC 8859-1 හි අන්තර්ගතයට සමාන වන අතර එමඟින් පවතින බටහිර පෙළ පරිවර්තනය කිරීම සුළුපටු නොවේ.

උරුම කේතන ක්රම භාවිතා කරන වෙනස ආරක්ෂා කර ගැනීම සඳහා අත්යවශ්යයෙන්ම සමාන අක්ෂර බොහෝමයක් විවිධ කේත ස්ථානවල කේතනය කර ඇති අතර එම නිසා කිසිදු තොරතුරක් අහිමි නොවී එම කේතන වලින් යුනිකෝඩ් (සහ පසුපසට) පරිවර්තනය කිරීමට ඉඩ ලබා දේ.

නිදසුනක් ලෙස, කේත ලක්ෂ්යවලපූර්ණ පළල ආකෘතිකොටස ලතින් හෝඩියේ සම්පූර්ණ අනුපිටපතක් ආවරණය කරයි, මන්ද චීන, ජපන් සහ කොරියානු (CJK) අකුරු වල මෙම අක්ෂරවල අනුවාද දෙකක් අඩංගු වන අතර, සීජේකේ අක්ෂරවල පළලට ගැලපෙනපූර්ණ පළලසහ සාමාන් පළල.