The Wayback Machine - https://web.archive.org/web/20191209204003/http://www.iis.ru/cyrillic/resource/report1997.ru.html

Ñåêöèÿ ïî èíôîðìàöèîííûì òåõíîëîãèÿì ÈÔËÀ

Áîëüøîé ñåêöèîííûé ïðîåêò


Ïðîåêòèðîâàíèå è âíåäðåíèå åäèíîãî ñòàíäàðòà ïðåäñòàâëåíèÿ êèðèëëîâñêîé èíôîðìàöèè â ýëåêòðîííîé ôîðìå

Îáçîðíîå èññëåäîâàíèå

Ñîäåðæàíèå

  1. Ââåäåíèå
  2. Îáçîð ñóùåñòâóþùèõ ïðåäñòàâëåíèé êèðèëëèöû
  3. Ñðàâíåíèå îòäåëüíûõ òàáëèö, èõ äîñòîèíñòâà è íåäîñòàòêè
  4. Ïðåäñòàâëåíèå çíàêîâ êèðèëëèöû è Unicode/ISO 10646
  5. Ïðîáëåìû ïðåäñòàâëåíèÿ êèðèëëèöû â ðîññèéñêîì Internet
  6. Ïîñëåäóþùèå ñòàäèè ðåàëèçàöèè ïðîåêòà
  7. Çàêëþ÷åíèå

È ñêàçàë Ãîñïîäü: âîò, îäèí íàðîä, è îäèí ó âñåõ ÿçûê; è âîò ÷òî íà÷àëè îíè äåëàòü, è íå îòñòàíóò îíè îò òîãî, ÷òî çàäóìàëè äåëàòü.

Ñîéäåì æå, è ñìåøàåì òàì ÿçûê èõ, òàê ÷òîáû îäèí íå ïîíèìàë ðå÷è äðóãîãî.

Áèáëèÿ. Ïåðâàÿ êíèãà Ìîèñååâà. Áûòèå, ãë. 11 (6-7).

1. Ââåäåíèå

Îäíî èç âåëè÷àéøèõ ñîáûòèé â ñëàâÿíñêîé èñòîðèè, îêàçàâøåå âîçäåéñòâèå íà âñå ÷åëîâå÷åñòâî, ïðîèçîøëî â IX ñòîëåòèè, êîãäà ñâÿòûå àïîñòîëû Êèðèëë è Ìåôîäèé ðàñïðîñòðàíèëè ñòàðî-áîëãàðñêèé (ñòàðî-ñëàâÿíñêèé) ÿçûê è êóëüòóðó ïîâñþäó â Âîñòî÷íîé Åâðîïå, âêëþ÷àÿ ðóññêèå è ðóìûíñêèå çåìëè.  òî âðåìÿ êàê Êèðèëë è Ìåôîäèé ðàçâèëè ðàííþþ âåðñèþ Ñëàâÿíñêîãî àëôàâèòà, íàçâàííîãî Ãëàãîëèöåé, ñâÿòîé Êëèìåíò Îõðèä ðàçðàáîòàë êèðèëëè÷åñêèé àëôàâèò (Êèðèëëèöó), â ôîðìå, áëèçêîé ê íûíå èñïîëüçóåìîé.

 ñåãîäíÿøíåé ïðàêòèêå â Áîëãàðèè èñïîëüçóåòñÿ 30 áóêâ îò À äî ß, òîãäà êàê ðóññêèé àëôàâèò, íàïðèìåð, èìååò òå æå ñàìûå 30 áóêâ ïëþñ áóêâû Û, Ý è ¨ (âìåñòî ïîñëåäíåé áóêâû ÷àñòî èñïîëüçóåòñÿ Å).  ñîâðåìåííîì óêðàèíñêîì àëôàâèòå åñòü äîïîëíèòåëüíûå áóêâû ª, ², ¯, íî íåò ñèìâîëîâ ¨, Ú, Û, Ý, à â áåëîðóññêîì àëôàâèòå â äîïîëíåíèå ê ðóññêîìó èñïîëüçóþòñÿ åùå áóêâû ² è ¡, íî íå èñïîëüçóþòñÿ È, Û, Ú. Íàêîíåö, â ñåðáñêîì è ìàêåäîíñêîì àëôàâèòàõ â äîïîëíåíèå ê ðóññêîìó àëôàâèòó ïðèñóòñòâóþò ñèìâîëû , € ½, £, , Š, Œ, Ž,  è îòñóòñòâóþò áóêâû ¨, É, Ù, Ú, Û, Ü, Ý, Þ, ß.

Ñ ïåðåõîäîì ê êîìïüþòåðíîé ýðå íåîáõîäèìîñòü èñïîëüçîâàíèÿ íåëàòèíñêèõ àëôàâèòîâ ïðèâåëî ê ðÿäó ïðîáëåì. Òàê â äîïîëíåíèå ê ëàòèíñêîìó àëôàâèòó êîìïüþòåð äîëæåí èìåòü âîçìîæíîñòü îáðàáàòûâàòü è äîïóñêàòü ïðåäñòàâëåíèå òåêñòîâîé èíôîðìàöèè, íàïðèìåð, ñ èñïîëüçîâàíèåì äðóãèõ àëôàâèòîâ (êèðèëëè÷åñêèõ, ãðå÷åñêîãî, èâðèòà, àðàáñêîãî è äð.). Îñîáåííî àêòóàëüíûì ýòî ñòàíîâèòñÿ â íàñòîÿùåå âðåìÿ èç-çà áûñòðîãî ðàçâèòèÿ ãëîáàëüíîé èíôîðìàöèîííîé èíôðàñòðóêòóðû, íàïðàâëåííîé íà ñîçäàíèå è ïîääåðæêó ðàñïðåäåëåííûõ èíôîðìàöèîííûõ ðåñóðñîâ ïðàêòè÷åñêè ïî âñåìó ìèðó è èíòåíñèâíîå ðàçâèòèå èíôîðìàöèîííîãî îáìåíà.

Áîëüøîå ÷èñëî èìåþùèõñÿ èíôîðìàöèîííûõ ñèñòåì è ðåñóðñîâ îðèåíòèðîâàíî ïðåæäå âñåãî íà èñïîëüçîâàíèå àíãëèéñêîãî ÿçûêà, áàçèðóþùåãîñÿ íà ëàòèíñêîì àëôàâèòå. Îòîáðàæåíèå òåêñòîâîé èíôîðìàöèè è åå õðàíåíèå îñóùåñòâëÿëîñü ñ ïîìîùüþ êîäîâûõ òàáëèö, óñòàíàâëèâàþùèõ ñîîòâåòñòâèå ìåæäó àëôàâèòíî-öèôðîâûìè ñèìâîëàìè è îïðåäåëåííûì ñî÷åòàíèåì áèòîâ.

Íàèáîëåå øèðîêî ïðèìåíÿåìàÿ â íàñòîÿùåå âðåìÿ îñíîâíàÿ êîäîâàÿ òàáëèöà äëÿ ïðåäñòàâëåíèÿ ëàòèíñêîãî àëôàâèòà, öèôð, çíàêîâ ïðåïèíàíèÿ è ìàòåìàòè÷åñêèõ ñèìâîëîâ îñíîâàíà íà Àìåðèêàíñêîì ñòàíäàðòå äëÿ èíôîðìàöèîííîãî îáìåíà (ASCII) è èñïîëüçóåò 128 êîäîâ. Îäíîâðåìåííî ñ îñíîâíîé òàáëèöåé ASCII ïîëó÷èëè ðàñïðîñòðàíåíèå åå 8-ìè áèòíûå ðàñøèðåíèÿ, êîòîðûå ïîçâîëÿþò äîïîëíèòåëüíî êîäèðîâàòü íå òîëüêî ñèìâîëû ïñåâäîãðàôèêè, íî è áóêâû íàöèîíàëüíûõ àëôàâèòîâ. Èìåííî çäåñü è âîçíèêëà ðåàëüíàÿ ïðîáëåìà: îòñóòñòâèå ñîãëàñîâàííîãî ñòàíäàðòà ðàñøèðåíèÿ ïðèâåëî ê ðàñïðîñòðàíåíèþ ÿâî÷íûì ïîðÿäêîì íåñîâìåñòèìûõ ñïîñîáîâ ïðåäñòàâëåíèÿ ãðàôè÷åñêèõ ñèìâîëîâ.

 íàñòîÿùåå âðåìÿ ñóùåñòâóåò íåñêîëüêî 8-ìè áèòíûõ ðàñøèðåíèé îäíîâðåìåííî èñïîëüçóåìûõ äëÿ êîäèðîâîê êèðèëëè÷åñêèõ ñèìâîëîâ.  òî æå âðåìÿ, ïðè ðàáîòå â Internet ñ òàêîé ðàñïðîñòðàíåííîé è áîãàòîé èíôîðìàöèîííûìè âîçìîæíîñòÿìè ñëóæáîé êàê WWW ïåðåõîä îò îäíîãî óçëà ñ êèðèëëîâñêîé èíôîðìàöèåé ê äðóãîìó ÷àñòî ïðèâîäèò ê ïåðåíàñòðîéêå ïîëüçîâàòåëüñêèõ èíòåðôåéñîâ WWW-êëèåíòà èëè, â ñëó÷àå èñïîëüçîâàíèÿ äðóãèõ ñåðâèñîâ Internet, ìîæåò ïîòðåáîâàòü äàæå ñìåíû íåêîòîðûõ ïðîãðàììíûõ êîìïîíåíò ðàáî÷èõ ñòàíöèé. Ðàçðàáîò÷èêàìè Internet-ñåðâåðîâ, ïîääåðæèâàþùèõ êèðèëëè÷åñêèå ìàññèâû èíôîðìàöèè, ïðåäëîæåí ðÿä ðåøåíèé, ïîçâîëÿþùèõ êëèåíòó ðàáîòàòü ñ ðåñóðñàìè ñåðâåðîâ â äîñòóïíîé åìó êîäèðîâêå. Îäíàêî êàæäîå èç íàéäåííûõ ðåøåíèé îáëàäàåò òåì èëè èíûì íåäîñòàòêîì è íå çàêðûâàåò ïðîáëåìó â öåëîì.

Êàðäèíàëüíûì ðåøåíèåì ýòîé ïðîáëåìû ìîæåò ïîñëóæèòü ïîâñåìåñòíûé ïåðåõîä íà èñïîëüçîâàíèå óíèâåðñàëüíîé 16-òè áèòíîé êîäèðîâêè (Unicode è ISO/IEC 10646). Îäíàêî ðåàëèçàöèÿ ïîääåðæêè íåñêîëüêèõ ñåìåéñòâ ÿçûêîâ â îäíîì äîêóìåíòå òðåáóåò íå òîëüêî ïðèìåíåíèÿ íîâûõ âåðñèé ïðîòîêîëà HTTP è ÿçûêà HTML, îáåñïå÷èâàþùèõ òðåáóåìóþ ìóëüòèÿçû÷íóþ ïîääåðæêó,, íî è íîâûõ ñðåäñòâ ïîääåðæêè èíôîðìàöèîííûõ ìàññèâîâ (òåêñòû, áàçû äàííûõ è ò.ä.) â Unicode, êîòîðûå íàõîäÿòñÿ íà ñàìîé ðàííåé ñòàäèè ïðàêòè÷åñêîãî ïðèìåíåíèÿ. Ïðè ýòîì íåëüçÿ íå ïîíèìàòü, ÷òî åùå äîñòàòî÷íî äîëãî áóäåò ñóùåñòâîâàòü îãðîìíîå ÷èñëî íàñëåäóåìûõ èíôîðìàöèîííûõ ñèñòåì, êîòîðûå íå áóäóò ïîääåðæèâàòü Unicode.

Ïîýòîìó èñïîëüçîâàíèå 8-ìè áèòíûõ ðàñøèðåííûõ òàáëèö äëÿ ïðåäñòàâëåíèÿ êèðèëëè÷åñêîé èíôîðìàöèè â ýëåêòðîííîì âèäå áóäåò àêòóàëüíûì åùå â òå÷åíèå äëèòåëüíîãî âðåìåíè. Îäíèì èç äåéñòâåííûõ ðåøåíèé äàííîé ïðîáëåìû ñåãîäíÿ, íà íàø âçãëÿä, ÿâëÿåòñÿ ðàçðàáîòêà ãèáðèäíîé òåõíîëîãèè, ðåäóñìàòðèâàþùåé:

à) âûðàáîòêó ðåêîìåíäàöèé ïî âûáîðó áàçîâîé êîäèðîâêè äëÿ õðàíåíèÿ è ïðåäîñòàâëåíèÿ èíôîðìàöèè â Internet-ñåðâåðàõ

á) ðàçðàáîòêó ïóáëè÷íî äîñòóïíûõ ïðîãðàììíûõ ñðåäñòâ è êîìïîíåíò, ïîçâîëÿþùèõ îñóùåñòâëÿòü ëîêàëèçàöèþ îñíîâíûõ îïåðàöèîííûõ ïëàòôîðì è ïîëüçîâàòåëüñêèõ èíòåðôåéñîâ

â) ðàçðàáîòêó òåõíîëîãèé àâòîìàòè÷åñêîãî ðàñïîçíàâàíèÿ êîäèðîâêè âõîäÿùåãî êëèåíòà è åãî îáñëóæèâàíèÿ â ýòîé æå êîäèðîâêå.

2. Îáçîð ñóùåñòâóþùèõ ïðåäñòàâëåíèé êèðèëëèöû

Ïðåäñòàâëåíèå ñèìâîëîâ â ÝÂÌ. ×òîáû îáñóæäàòü ïîäõîäû, èñïîëüçóåìûå äëÿ ýòîãî, îñòàíîâèìñÿ íà êðàòêîì îïèñàíèè òîãî, êàê âîîáùå â ÝÂÌ ïðåäñòàâëÿþòñÿ ãðàôè÷åñêèå ñèìâîëû (çíàêè). Ïîíÿòíî, ÷òî êîìïüþòåðû èìåþò äåëî ëèøü ñ ÷èñëàìè, òàê ÷òî äëÿ îïåðèðîâàíèÿ ñ ãðàôè÷åñêèì ñèìâîëîì (áóêâîé, çíàêîì) ìîæíî èñïîëüçîâàòü ëèøü åãî âíóòðåííåå ÷èñëîâîå ïðåäñòàâëåíèå (êîä). Åñëè ñèìâîë íóæíî, â ÷àñòíîñòè, îòîáðàçèòü íà ïåðèôåðèéíîì óñòðîéñòâå (äèñïëåå èëè ïðèíòåðå), òî íåîáõîäèìî âíóòðåííþþ êîäèðîâêó ãðàôè÷åñêîãî ñèìâîëà ïðåîáðàçîâàòü â çàðàíåå îïðåäåëåííóþ êîìáèíàöèþ òî÷åê (äëÿ ðàñòðîâîãî äèñïëåÿ èëè ìàòðè÷íîãî ïðèíòåðà) èëè ëèíèé (äëÿ âåêòîðíîãî äèñïëåÿ). Ýòî èçîáðàæåíèå ïîëüçîâàòåëü óâèäèò íà ýêðàíå äèñïëåÿ èëè íà áóìàãå è èíòåðïðåòèðóåò åãî êàê êîíêðåòíûé ãðàôè÷åñêèé ñèìâîë.

Åäèíñòâåííîå, ÷òî îñòàåòñÿ ñäåëàòü, ýòî îïðåäåëèòü ñîîòâåòñòâèå ìåæäó ÷èñëîì è ñèìâîëîì, èçîáðàæåíèå êîòîðîãî ñîîòâåòñòâóåò äàííîìó ÷èñëó. Ýòà ñèñòåìà êîäèðîâàíèÿ ñèìâîëîâ ìîæåò áûòü ïðåäñòàâëåíà â âèäå êîäîâîé òàáëèöû. Êîäû òðàäèöèîííî ïðåäñòàâëÿþò øåñòíàäöàòåðè÷íûìè èëè äåñÿòè÷íûìè ÷èñëàìè. Ëþáàÿ êîäîâàÿ òàáëèöà äîëæíà ñîäåðæàòü ïðåäñòàâëåíèå óïðàâëÿþùèõ ñèìâîëîâ, áóêâ ëàòèíñêîãî è íàöèîíàëüíîãî àëôàâèòîâ, öèôð, çíàêîâ ïðåïèíàíèÿ è àðèôìåòè÷åñêèõ îïåðàöèé, ñèìâîëîâ ïñåâäîãðàôèêè è ìàòåìàòè÷åñêèõ ñèìâîëîâ.

Îñíîâíàÿ êîäîâàÿ òàáëèöà ASCII è åå ðàñøèðåíèÿ. Íàèáîëåå øèðîêî ïðèìåíÿåìàÿ â íàñòîÿùåå âðåìÿ îñíîâíàÿ êîäîâàÿ òàáëèöà äëÿ ïðåäñòàâëåíèÿ ëàòèíñêîãî àëôàâèòà (ñì. ðèñ. 1) èñïîëüçóåò äåñÿòè÷íûå êîäû îò 0 äî 127 (øåñòíàäöàòåðè÷íûå êîäû îò 00 äî 7F). Ïðè ýòîì ïåðâûå 32 êîäà (îò 00 äî 1F) ÿâëÿþòñÿ óïðàâëÿþùèìè ñèìâîëàìè, êîòîðûì ñîîòâåòñòâóþò ñïåöèàëüíûå ãðàôè÷åñêèå èçîáðàæåíèÿ, çàâèñÿùèå, ïî ñóòè äåëà, îò çíàêîãåíåðàòîðà äèñïëåÿ. Äðóãèå êîäû îñíîâíîé òàáëèöû ASCII èñïîëüçóþòñÿ äëÿ êîäèðîâàíèÿ áóêâ ëàòèíñêîãî àëôàâèòà, öèôð, çíàêîâ ïðåïèíàíèÿ è ìàòåìàòè÷åñêèõ ñèìâîëîâ. Âñåãî äëÿ êîäèðîâàíèÿ ñèìâîëîâ èñïîëüçóåòñÿ 7 áèòîâ.

Ñóùåñòâóþùèå 8-ìè áèòíûå ðàñøèðåíèÿ îñíîâíîé òàáëèöû ASCII â äîïîëíåíèå ê ïåðâûì 128 ñèìâîëàì ïîçâîëÿþò êîäèðîâàòü íå òîëüêî ñèìâîëû ïñåâäîãðàôèêè èëè ìàòåìàòè÷åñêèå ñèìâîëû, íî è áóêâû íàöèîíàëüíûõ àëôàâèòîâ. Äëÿ ýòîãî èñïîëüçóþòñÿ äåñÿòè÷íûå êîäû îò 129 äî 256 (øåñòíàäöàòåðè÷íûå êîäû - îò 80 äî FF).

Ïðîáëåìà êîäèðîâêè êèðèëëèöû. Ïðè ïîñòðîåíèè ðàñøèðåíèé îñíîâíîé òàáëèöû ASCII âàæíî èñïîëüçîâàòü ñîãëàñîâàííûé ñòàíäàðò, ÷òîáû èçáåæàòü íåñîâìåñòèìîñòè ïðè ïðåäñòàâëåíèè ãðàôè÷åñêèõ ñèìâîëîâ. Ê ñîæàëåíèþ, òàê íå ïðîèçîøëî ïðè êîäèðîâàíèè áóêâ ðóññêîãî (èëè âîîáùå êèðèëëè÷åñêîãî) àëôàâèòà äëÿ èñïîëüçîâàíèÿ â ýëåêòðîííîé ôîðìå. Âîçíèêëî íåñêîëüêî âàðèàíòîâ ðàñøèðåíèÿ îñíîâíîé òàáëèöû ASCII ñ ðóññêèìè (êèðèëëè÷åñêèìè) áóêâàìè. Ñèòóàöèÿ îñëîæíèëàñü òåì, ÷òî â ÑÑÑÐ (à çàòåì â Ðîññèè, íà Óêðàèíå, â Áåëîðóññèè è ò.ä.) âîâðåìÿ íå áûë ïðèíÿò åäèíûé ñòàíäàðò ïîäîáíîãî ðàñøèðåíèÿ è íåñêîëüêî ðàñøèðåííûõ êîäîâûõ òàáëèö ñòàëè ñòàíäàðòîì äå-ôàêòî.

Èñòîðèÿ ñîçäàíèÿ êîäîâûõ òàáëèö äëÿ êèðèëëèöû.  70-å ãîäû â ÑÑÑÐ îäíèìè èç ïåðâûõ áûëè ðàçðàáîòàíû è óòâåðæäåíû â êà÷åñòâå ãîñóäàðñòâåííîãî ñòàíäàðòà (ÃÎÑÒ 19768-74 [1]) ñðàçó äâà ñòàíäàðòà: äâîè÷íûé êîä äëÿ îáìåíà è îáðàáîòêè èíôîðìàöèè (ÄÊÎÈ) - êîäîâàÿ òàáëèöà ÑP-DKOI (ðèñ. 2), è 8-áèòíûé êîä îáìåíà è îáðàáîòêè èíôîðìàöèè (ÊÎÈ8) - êîäîâàÿ òàáëèöà ÑP-KOI8 (ðèñ. 3), êîòîðûå ââîäèëèñü â äåéñòâèå ñ 01.01.1975 äî 01.01.1980. Ê òîìó âðåìåíè îòíîñèòñÿ òàêæå èñïîëüçîâàíèå íåñêîëüêèõ (çàñëóæåííî çàáûòûõ ñåãîäíÿ) âíóòðèâåäîìñòâåííûõ êîäîâûõ òàáëèö (ïðèìåð - ðèñ. 4).

 êîíöå 80-õ â ñâÿçè ñ ìàññîâûì âíåäðåíèåì ïåðñîíàëüíûõ êîìïüþòåðîâ áûëà ïðåäëîæåíà [2] ò.í. àëüòåðíàòèâíàÿ êîäèðîâêà, èñïîëüçóåìàÿ ïðè ðóññêîÿçû÷íîé ëîêàëèçàöèè IBM-ñîâìåñòèìûõ ÏÊ ïîä óïðàâëåíèåì îïåðàöèîííîé ñèñòåìû DOS è ïðèíÿòàÿ âïîñëåäñòâèè êîðïîðàöèåé IBM â êà÷åñòâå îäíîãî èç ñâîèõ âíóòðåííèõ ñòàíäàðòîâ CP-866 (ðèñ. 5). Ïðèìåðíî â ýòî æå âðåìÿ, â âîñòî÷íî-åâðîïåéñêèõ ñòðàíàõ ïîëó÷èëà ðàñïðîñòðàíåíèå ò.í. áîëãàðñêàÿ êîäèðîâêà CP-Bulgarian (ðèñ. 6), êîòîðàÿ õîðîøî èçâåñòíà â Åâðîïå è ïðîäîëæàåò òàì èñïîëüçîâàòüñÿ.

 1988 ãîäó Ìåæäóíàðîäíîé îðãàíèçàöèåé ñòàíäàðòîâ áûë óòâåðæäåí ñòàíäàðò ISO-8859-5 [3] êîäîâîãî ïðåäñòàâëåíèÿ êèðèëëèöû (ðèñ. 7) - åäèíñòâåííîãî ïðåäñòàâëåíèÿ, ïîääåðæèâàåìîãî ïðîòîêîëîì MIME è îñíîâíûìè êîìïàíèÿìè, èñïîëüçóþùèìè UNIX-ïëàòôîðìû (òàêèìè êàê IBM, Sun Microsystems, DEC è ò.ä.).

Îäíîâðåìåííî ñ øèðîêèì èñïîëüçîâàíèåì îïåðàöèîííîé ñèñòåìû UNIX è ðàçâèòèåì ðîññèéñêèõ êîìïüþòåðíûõ ñåòåé ïðîèñõîäèëî ðàñïðîñòðàíåíèå åùå îäíîé êîäîâîé òàáëèöû CP KOI-8R (ðèñ. 8), áàçèðóþùåéñÿ íà ÃÎÑÒå 19768-74 è ïðåòåíäóþùåé ñåãîäíÿ íà ðîëü ôàêòè÷åñêîãî ñòàíäàðòà äëÿ ðóññêîÿçû÷íîé ñåòåâîé ñðåäû.  1993 ãîäó ýòà êîäîâàÿ òàáëèöà áûëà ïðåäëîæåíà [4] ñîîáùåñòâó ïîëüçîâàòåëåé Internet äëÿ îáñóæäåíèÿ â êà÷åñòâå âîçìîæíîãî ñòàíäàðòà (ñì. RFC-1489). Íåäàâíî ýòà êîäîâàÿ òàáëèöà áûëà òàêæå çàðåãèñòðèðîâàíà êîðïîðàöèåé IBM â êà÷åñòâå åùå îäíîãî èç âíóòðåííèõ ñòàíäàðòîâ ðóññêîÿçû÷íîé ëîêàëèçàöèè ïîä êîäîì ÑP-878.

 ýòî âðåìÿ âìåñòî ñîâåòñêîãî ñòàíäàðòà ÃÎÑÒ 19768-74 áûë ïðèíÿò è ââåäåí â äåéñòâèå ñ 01.01.1995 ìåæãîñóäàðñòâåííûé ñòàíäàðò íîâûõ íåçàâèñèìûõ ãîñóäàðñòâ ÃÎÑÒ 19768-93 [5] äëÿ äâóõ âåðñèé ÑP-DKOI-K1 (ðèñ. 9) è ÑP-DKOI-K2 (ðèñ. 10) äâîè÷íîãî êîäà îáðàáîòêè èíôîðìàöèè.

Ïîÿâëåíèå è áóðíîå âíåäðåíèå ãðàôè÷åñêîãî èíòåðôåéñà MS Windows â íà÷àëå 90-õ ãîäîâ ïðèâåëî ê ìàññîâîìó ðàñïðîñòðàíåíèþ íîâîé êîäîâîé òàáëèöû CP-1251 (ðèñ. 11), íà êîòîðîé áàçèðóåòñÿ ðóññêîÿçû÷íàÿ ëîêàëèçàöèÿ ýòîãî ïðîãðàììíîãî ïðîäóêòà, èñïîëüçóåìàÿ êîðïîðàöèåé Microsoft. Ïîñëåäíÿÿ (ïî âðåìåíè) êîäîâàÿ òàáëèöà áûëà ðàçðàáîòàíà â ñâÿçè ñ âûõîäîì íà ðîññèéñêèé êîìïüþòåðíîé ðûíîê êîìïàíèè Apple, êîòîðàÿ äëÿ ëîêàëèçàöèè ðàáî÷èõ ñòàíöèé Macintosh, ðàáîòàþùèõ ïîä îïåðàöèîííîé ñèñòåìîé MacOS, ââåëà ñâîþ ñîáñòâåííóþ êîäîâóþ òàáëèöó CP-Mac (ñì. ðèñ. 12). Ñàìîå ïå÷àëüíîå, ÷òî âñå ýòî ïðîèñõîäèëî âñåãî íåñêîëüêî ëåò íàçàä!

Ñåãîäíÿ â Ðîññèè íàèáîëåå àêòèâíî èñïîëüçóþòñÿ êîäîâûå òàáëèöû CP-1251, CP-866, CP KOI-8R è ÑÐ-ISO-8859-5.

3. Ñðàâíåíèå îòäåëüíûõ êîäîâûõ òàáëèö, èõ äîñòîèíñòâ è íåäîñòàòêîâ

Êîäîâûå òàáëèöû ÊÎÈ. Âñå òàáëèöû, ñâÿçàííûå ñ òîé èëè èíîé âåðñèåé ÊÎÈ èëè ÄÊÎÈ ïðåäíàçíà÷åíû òîëüêî äëÿ ðóññêîãî/àíãëèéñêîãî ÿçûêîâ è îõâàòûâàþò ëèøü ðóññêèå êèðèëëè÷åñêèåñèìâîëû, òàê ÷òî óæå äëÿ óêðàèíñêîãî èëè áåëîðóññêîãî ÿçûêîâ ýòà êîäîâàÿ òàáëèöà íåïðèìåíèìà. Ëîãèêà ñîñòàâèòåëåé äàííûõ ñòàíäàðòîâ áûëà íàïðàâëåíà íà ðåàëèçàöèþ âîçìîæíîñòè èñïîëüçîâàíèÿ ãðàôè÷åñêèõ ñèìâîëîâ ëàòèíñêîãî àëôàâèòà âìåñòî ñõîäíûõ ïî íàïèñàíèþ êèðèëëè÷åñêèõ ñèìâîëîâ (êàê ñòðî÷íûõ, òàê è ïðîïèñíûõ). Ýòî ïðèâåëî ê òîìó, ÷òî áóêâû ðóññêîãî àëôàâèòà ðàñïîëàãàþòñÿ â ÊÎÈ-òàáëèöàõ íå ïî ïîðÿäêó, ïîýòîìó ñòàíäàðòíûå ìåõàíèçìû ñîðòèðîâêè íå äåéñòâóþò è îðãàíèçàöèÿ ñîðòèðîâêè òðåáóåò äîïîëíèòåëüíûõ óñèëèé îò ðàçðàáîò÷èêîâ ïðîãðàììíûõ ñðåäñòâ.

Àëüòåðíàòèâíàÿ êîäîâàÿ òàáëèöà CP-866. Ýòà òàáëèöà òàêæå ïðåäíàçíà÷åíà òîëüêî äëÿ ðóññêîãî/àíãëèéñêîãî ÿçûêîâ è îõâàòûâàåò ëèøü ðóññêèå êèðèëëîâñêèå çíàêè. Ðàñïîëîæåíèå ïðîïèñíûõ áóêâ ðóññêîãî àëôàâèòà îðãàíèçîâàíî ïî ïðèíöèïó îñíîâíîé êîäîâîé òàáëèöû ASCII (çà åäèíñòâåííûì èñêëþ÷åíèåì áóêâû ¨), òîãäà êàê íîðìàëüíàÿ ïîñëåäîâàòåëüíîñòü ñòðî÷íûõ áóêâ ïðåðûâàåòñÿ ñèìâîëàìè ïñåâäîãðàôèêè, ÷òî âíîâü ïðèâîäèò ê íåîáõîäèìîñòè ïðè ëîêàëèçàöèè ïðîãðàììíûõ ñðåäñòâ èñïîëüçîâàòü íåñòàíäàðòíûå ìåõàíèçìû ñîðòèðîâêè.

Ìåæäóíàðîäíûé ñòàíäàðò ISO-8859-5. Äàííûé ñòàíäàðò ïîçâîëÿåò îñóùåñòâèòü êîäèðîâàíèå íå òîëüêî äëÿ ðóññêîãî/àíãëèéñêîãî ÿçûêîâ, íî è îõâàòûâàåò áåëîðóññêèé, áîëãàðñêèé, ìàêåäîíñêèé, ñåðáñêèé è óêðàèíñêèé. Ïðè ýòîì ïîðÿäîê ðàñïîëîæåíèÿ áóêâ ðóññêîãî àëôàâèòà îðãàíèçîâàí â ñîîòâåòñòâèè ñ ïðèíöèïîì ïîñòðîåíèÿ îñíîâíîé òàáëèöû ASCII, êîãäà âñå ïîäðÿä èäóùèå ïðîïèñíûå áóêâû (êàê âñåãäà çà èñêëþ÷åíèåì áóêâû ¨) êîäèðóþòñÿ ïîñëåäîâàòåëüíûìè íîìåðàìè, à êîäû ñòðî÷íûõ áóêâ îòëè÷àþòñÿ îò êîäîâ ïðîïèñíûõ áóêâ íà 32. Ýòî ïîçâîëÿåò ëåãêî îðãàíèçîâàòü ñîðòèðîâêó ñ èñïîëüçîâàíèåì ñòàíäàðòíûõ ìåõàíèçìîâ è íå òðåáóåò äîïîëíèòåëüíûõ óñèëèé îò ðàçðàáîò÷èêîâ ïðîãðàììíûõ ñðåäñòâ.

Êîäîâàÿ òàáëèöà CP-1251. Ýòî ðàñøèðåíèå ïîñòðîåíî â ñîîòâåòñòâèè ñ ïðèíöèïàìè, ïðèìåíÿåìûìè â ìåæäóíàðîäíîì ñòàíäàðòå ISO-8859-5 è èñïîëüçóåòñÿ íå òîëüêî äëÿ êîäèðîâàíèÿ ñèìâîëîâ ðóññêîãî/àíãëèéñêîãî àëôàâèòîâ, íî è ñîäåðæèò íåäîñòàþùèå ñèìâîëû áåëîðóññêîãî, áîëãàðñêîãî, ìàêåäîíñêîãî, ñåðáñêîãî è óêðàèíñêîãî àëôàâèòîâ. Îòëè÷èå îò ñòàíäàðòà ISO-8859-5 çàêëþ÷àåòñÿ ëèøü â ïåðåìåùåíèè ðóññêèõ áóêâ ñî ñòîëáöîâ B0-E0 â ñòîëáöû C0-F0 è íåñêîëüêî èíîì ðàçìåùåíèè îñòàëüíûõ ñèìâîëîâ.

Êîäîâàÿ òàáëèöà CP-Mac.Ýòà òàáëèöà áëèçêà ïî ñâîèì ïðèíöèïàì ïîñòðîåíèÿ ê òàáëèöàì ÑÐ-ISO-8859-5 è CP-1251, íî îòëè÷àåòñÿ îò íèõ ñîâåðøåííî èçûñêàííûì âûíîñîì èç îáùåãî ðÿäà âïåðåä ñòðî÷íîé áóêâû "ÿ" (!?)

Âûâîäû. Ïðîâåäåííûé àíàëèç è ñðàâíåíèå óáåäèòåëüíî ïîêàçûâàþò, ÷òî íàèáîëåå ïîñëåäîâàòåëüíûì è óäà÷íûì ïðåäñòàâëÿåòñÿ ïîñòðîåíèå êîäîâîé òàáëèöûÑÐ-ISO-8859-5 Ìåæäóíàðîäíîé îðãàíèçàöèè ñòàíäàðòîâ, íå òîëüêî ðåøàþùåé ïðîáëåìó 8-áèòíîãî ïðåäñòàâëåíèÿ ñèìâîëîâ ðóññêîãî àëôàâèòà, íî è äîïóñêàþùåé êîäèðîâêó åùå íåñêîëüêèõ êèðèëëè÷åñêèõ àëôàâèòîâ.

Áîëåå òîãî, ñòàíäàðò Unicode 2.0 [7], ïðèíÿòûé â êà÷åñòâå ïîäìíîæåñòâà ñòàíäàðòà ISO/IEC 10646 [8], ïîñòðîåí ïî àíàëîãè÷íîìó ïðèíöèïó è äëÿ êèðèëëè÷åñêèõ ñèìâîëîâ îò U+040 äî U+04FF (ñì. ðèñ. 13) âêëþ÷àåò ÷àñòü êîäîâîé òàáëèöû ÑÐ-ISO-8859-5 êàê íà÷àëüíûé ôðàãìåíò ñî ñòîëáöàìè U+040 - U+045, ÷òî ñóùåñòâåííî îáëåã÷èò â áóäóùåì ìèãðàöèþ ñ 8-áèòíîãî íà 16-áèòíîå êîäîâîå ïðåäñòàâëåíèå ñèìâîëîâ.

4. Ïðåäñòàâëåíèå çíàêîâ êèðèëëèöû è UNICODE/ISO10646

Ñòàíäàðò Unicode. Íîâûé ñïîñîá êîäèðîâàíèÿ çíàêîâ, ïðåäíàçíà÷åííûé äëÿ ïðåäñòàâëåíèÿ ìíîãîÿçû÷íîé èíôîðìàöèè â ýëåêòðîííîì âèäå, îñíîâàí íà â íåäàâíî çàâåðøåííîì (â îñíîâíîì)ïðîåêòå Unicode, ïðåäñòàâëÿþùåì ñîáîé ñîáñòâåííîå ïîäìíîæåñòâî ñòàíäàðòà ISO/IEC 10646. Ïðîåêò ñòàíäàðòà Unicode íå òîëüêî îñíîâàí íà ïîñëåäîâàòåëüíîì èñïîëüçîâàíèè ñóùåñòâóþùåé îñíîâíîé êîäîâîé òàáëèöû ASCII è åå ðàñøèðåíèÿ Latin-1, íî è ïðåîäîëåâàåò îãðàíè÷åíèÿ ïî âîçìîæíîñòÿì èñïîëüçîâàíèÿ òàáëèö ASCII äëÿ êîäèðîâàíèÿ òîëüêî ëàòèíñêîãî àëôàâèòà. Unicode îáåñïå÷èâàåò âîçìîæíîñòü êîäèðîâàòü âñå çíàêè, èñïîëüçóåìûå äëÿ âñåõ æèâûõ ÿçûêîâ, èìåþùèõ ïèñüìåííîñòü.

×òîáû çàêîäèðîâàòü òûñÿ÷è çíàêîâ, èñïîëüçóåìûõ â ìèðå, Unicode èñïîëüçóåò 16-áèòíûé êîä âìåñòî 7-áèòíîãî êîäà ASCII. Ýòî ðàñøèðåíèå îáåñïå÷èâàåò êîäû äëÿ áîëåå ÷åì 65,000 çíàêîâ, ÷òî âî ìíîãî ðàç ïðåâûøàåò âîçìîæíîñòè êîäîâîé òàáëèöû ASCII ñ åå 128 çíàêàìè. ×òîáû îñóùåñòâèòü ïðîñòóþ è ýôôåêòèâíóþ êîäèðîâêó, Unicode ïðèñâàèâàåò êàæäîìó çíàêó óíèêàëüíîå 16-áèòíîå çíà÷åíèå, è íå èñïîëüçóåò ñëîæíûå ñïîñîáû èëè Escape-êîäû äëÿ îïðåäåëåíèÿ èçìåíåííûõ çíàêîâ èëè ñïåöèàëüíûõ ñëó÷àåâ. Ýòà ïðîñòîòà è ýôôåêòèâíîñòü îáëåã÷àåò äëÿ êîìïüþòåðîâ è ïðîãðàììíîãî îáåñïå÷åíèÿ ðàáîòó ñ òåêñòîâûìè ôàéëàìè â êîäèðîâêå Unicode.

Ñòàíäàðò Unicode è ISO 10646. Äî íåäàâíåãî âðåìåíè Unicode áûë îäíèì èç äâóõ ïðîåêòîâ ìåæäóíàðîäíûõ ñòàíäàðòîâ êîäèðîâêè íàðÿäó ñ äðóãèì, èçâåñòíûì êàê ISO 10646. Ê ñ÷àñòüþ, íåäàâíåå ñîãëàøåíèå ìåæäó Êîíñîðöèóìîì Unicode è Êîìèòåòîì ISO 10646 óñòàíîâèëî ñëèÿíèå äâóõ ïðîåêòîâ: Unicode òåïåðü ÿâëÿåòñÿ ñîáñòâåííûì ïîäìíîæåñòâîì íàáîðà çíàêîâ ISO 10646.

Îñíîâíûå êîäû ñòàíäàðòà Unicode ñîñòàâëÿþò ïåðâûå 65,536 êîäîâ ñòàíäàðòà ISO 10646 è ñîäåðæàò âñå çíàêè, â íàñòîÿùåå âðåìÿ îïðåäåëåííûå ISO 10646. Îñòàëüíûå êîäû ISO 10646 îñòàþòñÿ íåçàïîëíåííûìè è çàðåçåðâèðîâàíû äëÿ áóäóùåãî ðàñøèðåíèÿ. ×òîáû îòðàçèòü çíàêè, èìåþùèåñÿ â ISO 10646, ñòàíäàðò Unicode âêëþ÷èë áîëåå ÷åì 3600 íîâûõ êèòàéñêèõ, ÿïîíñêèõ è êîðåéñêèõ çíàêîâ è áîëåå ÷åì 1000 äðóãèõ çíàêîâ.

Ñëèÿíèå ñòàíäàðòîâ Unicode è ISO 10646 çàôèêñèðîâàëî òîëüêî îäèí ðàçâèâàåìûé ïðîåêò ìåæäóíàðîäíîãî ñòàíäàðòà êîäèðîâîê è îñòàíîâèëî ñðàæåíèå ìåæäó ñòàíäàðòàìè, ÷òî ëèøü íà ïîëüçó êîíå÷íûì ïîòðåáèòåëÿì.

Êàêèå çíàêè âêëþ÷àåò Unicode? Ñòàíäàðò Unicode îïðåäåëÿåò êîäû äëÿ çíàêîâ, èñïîëüçóåìûõ âî âñåõ ïèñüìåííûõ ÿçûêàõ, èñïîëüçóåìûõ ñåãîäíÿ. Ýòî âêëþ÷àåò ëàòèíñêèé àëôàâèò, èñïîëüçóåìûé äëÿ àíãëèéñêîãî ÿçûêà, êèðèëëè÷åñêèé àëôàâèò, èñïîëüçóåìûé äëÿ ðóññêîãî è äðóãèõ ñëàâÿíñêèõ ÿçûêîâ, ãðå÷åñêèé, èâðèò è àðàáñêèé àëôàâèòû, äðóãèå àëôàâèòû, èñïîëüçóåìûå â ñòðàíàõ Åâðîïû, Àôðèêè, Èíäîêèòàÿ è Àçèè.

Unicode òàêæå âêëþ÷àåò àëôàâèòû òèïà ÿïîíñêîãî kana, êîðåéñêîãî hangul, è êèòàéñêîãî bopomofo. Ñàìàÿ áîëüøàÿ ÷àñòü ñòàíäàðòà Unicode ïîñâÿùåíà òûñÿ÷àì îáüåäèíåííûõ çíàêîâ äëÿ êèòàéñêèõ, ÿïîíñêèõ è êîðåéñêèõ èåðîãëèôîâ.

Unicode âêëþ÷àåò ìíîãî íàáîðîâ ñèìâîëîâ, ñ êîäàìè çíàêîâ ïóíêòóàöèè, ìàòåìàòè÷åñêèõ ñèìâîëîâ, òåõíè÷åñêèõ ñèìâîëîâ, ñòðåëîê è äð. Ýòî îáåñïå÷èâàåò íàëè÷èå êîäîâ äëÿ äèàêðèòîâ, êîòîðûå èñïîëüçóþòñÿ êàê ìîäèôèêàöèè çíàêîâ òèïà òèëüäû è ïîÿâëÿþòñÿ â ñîåäèíåíèè ñ äðóãèìè çíàêàìè. Âñåãî Unicode îáåñïå÷èâàåò êîäû äëÿ áîëåå ÷åì 29,000 çíàêîâ îò ìèðîâûõ àëôàâèòîâ, íàáîðîâ èåðîãëèôîâ è ñèìâîëîâ.

Unicode ñîäåðæèò áîëåå ÷åì 29,000 íåèñïîëüçîâàííûõ êîäîâ äëÿ ðàñøèðåíèÿ, ïîçâîëÿþùèå âêëþ÷èòü íîâûå çíàêè.  áóäóùåì ýòî ìîæåò ïîçâîëèòü âêëþ÷èòü â ñòàíäàðò èñòîðè÷åñêèå çíàêè òèïà èåðîãëèôîâ è âîçìîæíûå ðàñøèðåíèÿ ñóùåñòâóþùèõ àëôàâèòîâ è/èëè íàáîðîâ ñèìâîëîâ. Êðîìå òîãî, Unicode ðåçåðâèðóåò áîëåå ÷åì 6,000 êîäîâ äëÿ ÷àñòíîãî èñïîëüçîâàíèÿ, êîòîðûå ðàçðàáîò÷èêè ïðîãðàììíîãî îáåñïå÷åíèÿ è àïïàðàòíûõ ñðåäñòâ ìîãóò èñïîëüçîâàòü äëÿ ñîáñòâåííûõ çíàêîâ è ñèìâîëîâ.

Ïðèíöèïû ïîñòðîåíèÿ Unicode. Äëÿ áîëåå ëåãêîãî âíåäðåíèÿ Unicode â êà÷åñòâå âñåìèðíîãî çíàêîâîãî ñòàíäàðòà, èñïîëüçóåìîãî äëÿ êîäèðîâàíèÿ òåêñòà, â íåì ðåàëèçîâàíû ñëåäóþùèå ïðèíöèïû:

  • â Unicode èñïîëüçóþòñÿ ôèêñèðîâàííûå 16-òè áèòíûå êîäû äëÿ çíàêîâ è íåò çàâèìîñòè îò ñîñòîÿíèé èëè ñïîñîáîâ êîäèðîâêè ñïåöèàëüíûõ çíàêîâ
  • Unicode âêëþ÷àåò íàáîðû çíàêîâ ìíîãèõ ñóùåñòâóþùèõ ñòàíäàðòîâ: íàïðèìåð, Latin-1 êàê ñâîè ïåðâûå 256 çíàêîâ; êðîìå òîãî, îí âêëþ÷àåò ðåïåðòóàð çíàêîâ äðóãèõ îáùèõ, íàöèîíàëüíûõ è ìåæäóíàðîäíûõ ñòàíäàðòîâ Unicode èñïîëüçóåò óíèôèêàöèþ Õàíà äëÿ îáúåäèíåíèÿ êèòàéñêèõ, êîðåéñêèõ è ÿïîíñêèõ èåðîãëèôîâ Unicode äîïóñêàåò ñîçäàíèå îòìå÷åííûõ çíàêîâ: îí êîäèðóåò êàæäûé çíàê è äèàêðèò èëè ìåòêó ãëàñíîãî îòäåëüíî, à òàêæå ïîçâîëÿåò oáúåäèíÿòü çíàêè, ÷òîáû ñîçäàòü îòìå÷åííûå.

5. Ïðîáëåìû ïðåäñòàâëåíèÿ êèðèëëèöû â ðîññèéñêîì Internet

5.1 Ñîâðåìåííàÿ ñèòóàöèÿ ñ èñïîëüçîâàíèåì ðàçëè÷íûõ êîäèðîâîê â ðîññèéñêîé ÷àñòè Internet

Ñòàòèñòèêà ðàáîòû áîëüøèíñòâà ðîññèéñêèõ ñåðâåðîâ Internet ïîêàçûâàåò, ÷òî àêòèâíî (íå åäèíè÷íî) èñïîëüçóþòñÿ êîäèðîâêè CP-1251, KOI-8R, ISO-8859-5, CP-866, CP-Mac. Ïðè ýòîì ïîäàâëÿþùåå ÷èñëî çàïðîñîâ íàïðàâëÿåòñÿ è îáñëóæèâàåòñÿ â êîäèðîâêå CP-1251, òî åñòü îñíîâíîé êîäèðîâêå, èñïîëüçóþùàÿñÿ âî âñåõ âåðñèÿõ âåðcèé Windows. Ïî ðàçíûì îöåíêàì, ÷èñëî ïîëüçîâàòåëåé, èñïîëüçóþùèõ äàííóþ êîäèðîâêó äîñòèãàåò 80-90 ïðîöåíòîâ îò îáùåãî ÷èñëà "êèðèëëè÷åñêèõ" ïîëüçîâàòåëåé. Íà âòîðîì ìåñòå ïî ÷àñòîòå èñïîëüçîâàíèÿ, ïî íàøèì äàííûì, ñòîèò "îôèöèàëüíàÿ" êîäèðîâêà ðîññèéñêîé ÷àñòè Internet KOI-8R.  êà÷åñòâå ïðèìåðà ìû ïðèâîäèì äàííûå, ïîëó÷åííûå àâòîìàòè÷åñêèì ñåðâåðîì ñòàòèñòèêè Ãîñóäàðñòâåííîé ïóáëè÷íîé íàó÷íî-òåõíè÷åñêîé áèáëèîòåêè Ðîññèè çà ïåðèîä ìàðò-èþëü 1997 ã - òàáëèöà 1 è 2, ðèñ 14.


 

Òàáëèöà1.

NPLS&T WWW server statistic

Browser Report.

#reqs

Browser

17148

Mozilla/2.0 (compatible; MSIE 3.0; Windows 95)

14995

Mozilla/3.01Gold (Win95; I)

14544

Mozilla/2.0 (compatible; MSIE 3.02; Windows 95)

8511

Mozilla/3.0Gold (Win95; I)

6829

Mozilla/2.0 (compatible; MSIE 3.01; Windows 95)

6406

Mozilla/3.0 (Win95; I)

4104

Mozilla/3.01 (Win95; I)

2314

Harvest/1.4.pl2

2006

Mozilla/3.01 (Win16; I)

1649

Mozilla/3.01Gold (Win16; I)

1523

Mozilla/3.0 (Win16; I)

1477

Mozilla/3.0Gold (Win16; I)

1366

ia_archiver/1.6 (X11)

1219

Mozilla/4.01 [en] (Win95; I)

1099

Mozilla/4.0b5 [en] (Win95; I)

1060

Scooter/1.0 [email protected] (X11)

991

Mozilla/2.0 (compatible; MSIE 3.02; Windows NT)

882

Mozilla/2.0 (compatible; MSIE 3.01; Windows NT)

875

Mozilla/4.0b4 [en] (Win95; I)

850

Mozilla/4.0 (compatible; MSIE 4.0b1; Windows 95)

832

Mozilla/2.02 (Win16; I)

752

Mozilla/3.01 (X11; I; Linux 2.0.30 i586)

679

Mozilla/3.01 (X11; I; Linux 2.0.28 i586)

655

Mozilla/3.01Gold (Win95; I; 16bit)

651

Mozilla/2.0 (compatible; MSIE 3.0; Update B; Windows 95)

648

Mozilla/4.0 [en] (Win95; I)

611

Mozilla/2.0 (compatible; MSIE 3.0; AK; Windows 95)

583

Mozilla/2.0 (compatible; MSIE 3.0; Windows NT)

514

Mozilla/2.0 (compatible; MSIE 3.0B; Win32)

496

Mozilla/2.0 (compatible; MSIE 3.02; AK; Windows 95)

486

Mozilla/3.01Gold (X11; I; FreeBSD 2.2.1-RELEASE i386)

422

Mozilla/3.0Gold (WinNT; I)

416

Mozilla/2.02 (OS/2; I)

404

Mozilla/3.01Gold (WinNT; I)

403

Mozilla/4.0b5 [en] (WinNT; I)

401

Mozilla/2.0 (Win16; I)

400

Mozilla/3.01 (Win95; I; 16bit)

384

Mozilla/3.0 (WinNT; I)

372

Mozilla/2.0 (compatible; MSIE 3.01; AK; Windows 95)

366

Mozilla/2.0 (compatible; MSIE 3.0B; Windows 95)

350

Mozilla/3.0 (Win95; I; 16bit)

348

Mozilla/4.0b3 [en] (Win95; I)

344

Arachnoidea

331

Mozilla/2.02E-KIT (Win95; I)

329

Mozilla/3.01Gold (X11; I; Linux 2.0.27 i586)

326

Mozilla/3.01 (X11; I; Linux 2.0.29 i586)

319

Mozilla/3.01Gold (X11; I; Linux 2.0.29 i586)

311

Mozilla/4.0 (compatible; MSIE 4.0b1 Crawler; Windows 95)

309

Mozilla/2.0 (compatible; MSIE 3.02; Update a; Windows 95)

302

Mozilla/2.0 (compatible; MSIE 3.02; Win32)

282

Mozilla/2.01 (Win16; I)

254

Mozilla/3.01 (X11; I; Linux 2.0.0 i586)

247

Mozilla/2.0 (compatible; MSIE 3.01; Update B; Windows 95)

243

Mozilla/2.02E-KIT (Win16; I)

233

StackRambler/1.1

214

Mozilla/1.22 (Windows; I; 16bit)

200

Mozilla/3.01 (X11; I; Linux 2.1.42 i586)

197

Mozilla/2.01 (Win95; I; 16bit)

195

Mozilla/3.01 (X11; I; Linux 2.0.24 i586)

193

Mozilla/3.0Gold (X11; I; Linux 2.0.30 i586)

188

Mozilla/2.0 (compatible; MSIE 3.02; Windows 3.1)

182

Mozilla/3.01Gold (X11; I; Linux 2.0.30 i586)

178

Mozilla/3.01Gold (X11; I; Linux 2.0.18 i586)

170

Mozilla/3.0 (Win95; I) Modified

163

Mozilla/2.0 (compatible; MSIE 3.01; Windows 3.1)

159

SPRY_Mosaic/v7.36 (Windows 16-bit) SPRY_package/v4.00

159

Mozilla/2.02E (OS/2; I)

154

Mozilla/3.01 (WinNT; I)

151

Mozilla/3.01Gold (X11; I; Linux 2.0.29 i486)

147

Mozilla/4.01 [en] (WinNT; I)

146

Mozilla/4.0b3 [en] (WinNT; I)

145

Mozilla/3.0Gold (Win95; I) Modified

137

Mozilla/2.0 (Win95; I; 16bit)

134

Mozilla/4.0 (compatible; MSIE 4.0b1; Windows NT)

130

Gulliver/1.1

129

Mozilla/1.22 (compatible; MSIE 2.0; Windows 95)

129

Mozilla/2.0 (compatible; MSIE 3.0a; Windows 3.1)

119

Mozilla/3.0 (X11; I; SunOS 5.5.1 sun4u)

119

Mozilla/4.0b5C (X11; I; Linux 2.0.30 i586)

116

Mozilla/2.01Gold (Win95; I)

116

Mozilla/4.0 [en] (WinNT; I)

109

Mozilla/3.01 (X11; I; HP-UX A.09.05 9000/715)

107

Mozilla/3.01Gold (Macintosh; I; PPC)

107

Mozilla/2.0 (compatible; MSIE 3.01; Update B; Windows NT)

100

Mozilla/3.0Gold (Win95; I; 16bit)

97

Mozilla/4.0b1 (Win95; I)

97

Mozilla/3.01 (X11; I; Linux 2.1.36 i586)

96

Mozilla/3.0 (X11; I; SunOS 5.5 sun4m)

94

Mozilla/2.0 (compatible; BiDi MSIE 3.02; Windows 95)

89

Arkanavt/1.03.005 (compatible; Win16; I)

86

StackRambler/1.0

83

Mozilla/3.01Gold (X11; I; Linux 2.0.30 i486)

82

Mozilla/2.0 (compatible; MSIE 3.0; Windows 3.1)

82

Mozilla/3.01Gold (X11; I; Linux 2.0.0 i586)

80

Mozilla/2.01KIT (Win95; I; 16bit)

76

Mozilla/2.0 (Win95; I)

76

ArchitextSpider

75

Mozilla/3.0Gold (WinNT; U)

75

Mozilla/3.01 (X11; I; Linux 2.0.27 i586)

74

Mozilla/3.01Gold (X11; I; Linux 2.1.43 i586)

 

 

Òàáëèöà 2.

 

Brouser code page

#reqs

CP-1251

102589

KOI-8r

7335

ISO-8859-5

810

CP-866

575

CP-Mac

107



Ðèñ. 14.



Íàãëÿäíî ïðåäñòàâëåííîå äîìèíèðóþùåå ïîëîæåíèå îäíîé ñèñòåìû êîäèðîâêè (CP-1251), ìîæåò áûòü ëåãêî îáúÿñíåíî, åñëè ïðîàíàëèçèðîâàòü ñòðóêòóðó êîìïüþòåðíîãî ïàðêà èñïîëüçóåìîãî â Ðîññèè. Àðõèòåêòóðà WinIntel, òî åñòü ñîâîêóïíîñòü ïåðñîíàëüíîãî êîìïüþòåðà íà áàçå Intel-ïðîöåññîðîâ è ðàçëè÷íûõ âåðñèé Windows, íàèáîëåå ïîïóëÿðíà êàê â ãîñóäàðñòâåííûõ è íåêîììåð÷åñêèõ îðãàíèçàöèÿõ, òàê è â áèçíåñ-ñåêòîðå è ñôåðå äîìàøíèõ ïðèëîæåíèé. Îñíîâíûì ôàêòîðîì íàëè÷èÿ òàêîé ïîïóëÿðíîñòè ýòèõ ñèñòåì ÿâëÿåòñÿ äîñòóïíîñòü êàê ïî öåíîâûì õàðàêòåðèñòèêàì, òàê è ïî ëåãêîñòè îñâîåíèÿ è èñïîëüçîâàíèÿ. Ìîæíî ñêàçàòü, ÷òî ìàññîâûì ñòàëà òîëüêî ëèøü ýòà àðõèòåêòóðà. Âñå îñòàëüíûå èñïîëüçóþòñÿ ëèøü â óçêîñïåöèàëèçèðîâàííûõ ñåêòîðàõ ðûíêà Îäíàêî, â ïîñëåäíåå âðåìÿ, â òîì ÷èñëå è â ðåçóëüòàòå "âçðûâíîãî" ðîñòà èíòåðåñà ê Internet, ðåçêî âîçðîñëî ïðèìåíåíèå è ïîïóëÿðíîñòü ìàëûõ Unix ñèñòåì. Òàêèå ñèñòåìû ÷àùå âñåãî èñïîëüçóþò êîìïüþòåðû íà áàçå âñå òîãî æå Intel-ïðîöåññîðà, îñîáåííî â ñòðàíàõ áûâøåãî ÑÑÑÐ, íî â êà÷åñòâå îïåðàöèîííîé ñèñòåìû â òàêèõ ñèñòåìàõ ïðèìåíÿþòñÿ ðàçëè÷íûå ñâîáîäíîðàñïðîñòðàíÿåìûå âåðñèè UNIX. Íàèáîëåå ÷àñòî ïðèìåíÿåìûå - ðàçëè÷íûå âåðñèè Linux è FreeBSD.

 ñîâîêóïíîñòè ñ êîììåð÷åñêèìè âåðñèÿìè UNIX ðàáîòàþùèõ íà ìîùíûõ ïëàòôîðìàõ, âûøåóêàçàííûå ñèñòåìû èñïîëüçóþòñÿ â êà÷åñòâå áàçîâûõ ïëàòôîðì äëÿ ñåðâåðîâ Internet. Áîëüøèíñòâî ñåðâåðîâ ðîññèéñêîé è FSU ÷àñòè Internet èñïîëüçóþò òàêèå ñèñòåìû è, ñëåäîâàòåëüíî, âíóòðåííèå êîäèðîâêè KOI-8R è ISO.

Ýòî ïðèâîäèò ê ïàðîäîêñàëüíîé ñèòóàöèè - íåñìîòðÿ íà ïîäàâëÿþùåå ïðåâîñõîäñòâî èñïîëüçîâàíèÿ êîäèðîâêè CP-1251 ó êëèíåòîâ, çàïðàøèâàåìûå äàííûå êîòîðûå èì íàïðàâëÿþòñÿ îò âûáðàííûõ Internet-ñåðâåðîâ èìåþò äðóãóþ êîäèðîâêó! Ýòî îäíà èç ïðè÷èí, êîòîðàÿ äåëàåò ðàáîòó ïî óíèôèêàöèè ïðåäñòàâëåíèÿ êèðèëëè÷åñêîé èíôîðìàöèè æèçíåííî íåîáõîäèìîé äëÿ ðîññèéñêîãî è FSU Internet community, íî íå òîëüêî äëÿ íèõ, à â öåëîì, äëÿ ïîëüçîâàòåëåé êèðèëëè÷åñêîé èíôîðìàöèè ÷åðåç Internet. Âîçíèêàåò íåîáõîäèìîñòè ëèáî äóáëèðîâàíèÿ äàííûõ â ðàçëè÷íûõ êîäèðîâêàõ, ÷òî ïðè óâåëè÷åíèè îáúåìîâ ïðåäîñòàâëÿåìîé èíôîðìàöèè ñòàíîâèòñÿ ïðàêòè÷åñêè íåâîçìîæíûì, ëèáî èõ àâòîìàòè÷åñêîãî êîíâåðòèðîâàíèÿ, ÷òî ðåçêî óâåëè÷èâàåò çàðãóçêó ñåðâåðîâ è ïðèâîäèò ê çàìåäëåíèþ â îáñëóæèâàíèè.

Åùå áîëåå ñëîæíàÿ ñèñòóàöèÿ ñëîæèëàñü ïðè ïðîåêòèðîâàíèè è ðåàëèçàöèè Internet-ñåðâåðîâ â ðîññèéñêèõ è fSU áèáëèîòåêàõ. Çäåñü ê âûøåïåðå÷èëåííûì ïðîáëåìàì äîáàâëÿåòñÿ òî, ÷òî èñòîðè÷åñêè, áîëüøèíñòâî ìàññèâîâ áèáëèîãðàôè÷åñêèõ áàç äàííûõ è ýëåêòðîííûõ êàòàëîãîâ, áûëî ñãåíåðèðîâàíî è ïðîäîëæàåò ïîääåðæèâàòüñÿ â êîäèðîâêå CP-866, ïîñêîëüêó áîëüøèíñòâî óñòàíîâëåííûõ áèáëèîòå÷íûõ ñèñòåì ðàáîòàåò ïîä óïðàâëåíèåì ðàçëè÷íûõ âåðñèé MS-DOS. Ýòî ïðèâîäèò ê òîìó, ÷òî ïðè âûïîëíåíèè çàïðîñà íà ïîèñê â áèáëèîãðàôè÷åñêèõ áàçàõ äàííûõ âîçíèêàåò öåëàÿ öåïî÷êà ïðåîáðàçîâàíèé è ïåðåêîäèðîâîê. Òèïè÷íûé ïðèìåð - êëèåíò ðàáîòàåò êàê Windows-êëèåíò (êîäèðîâêà CP-1251), ñåðâåð èñïîëüçóåò äëÿ ñòàòè÷åñêîé èíôîðìàöèè êîäèðîâêó KOI-8R, à áàçû äàííûõ õðàíÿòñÿ â êîäèðîâêå CP-866.  ýòîì ñëó÷àå ïðè âûïîëíåíèè òîëüêî îäíîé òðàíçàêöèè äîñòóïà ê áàçàì äàííûõ ïðîèñõîäèò 4 ïåðåêîäèðîâêè).

Ê ñîæàëåíèþ, íè îáùåì ñëó÷àå Internet-ñåðâåðîâ íè â ñëó÷àå áèáëèîòå÷íûõ ñåðâåðîâ íåâîçìîæíî èñïîëüçîâàòü îïòèìèçàöèþ ïðîöåññîâ ïåðåêîäèðîâêè íà áàçå ââîäà íàèáîëåå ÷àñòî èñïîëüçóåìîé CP-1251 êàê áàçîâîé. Ïðè òàêîì ïîäõîäå àäìèíèñòðàòîðîû ñåðâåðîâ íåìèíóåìî ñòàëêèâàþòñÿ ñ ïî êðàéíåé ìåðå 2 ïðîáëåìàìè:

1. Ïðè äîñòóïå ñ Unix ìàøèí äàæå ïðè èñïîëüçîâàíèè ñðåäñòâ àâòîìàòè÷åñêîãî ðàñïîçíàâàíèÿ êîäèðîâêè âõîäÿùåãî êëèåíòà, ñóùåñòâóåò çíà÷èòåëüíàÿ âåðîÿòíîñòü íåîáõîäèìîñòè ðàáîòû ñ áàçîâîé êîäèðîâêîé. Îäíàêî îáåñïå÷åíèå ðàáîòû Unix-òåðìèíàëîâ è ðàáî÷èõ ñòàíöèé ñ êîäèðîâêîé CP-1251 çíà÷èòåëüíî áîëåå íåòðèâèàëüíàÿ çàäà÷à, ÷àñòî è âîâñå íåâûïîëíèìàÿ, ÷åì îáðàòíàÿ

2. Èñïîëüçîâàíèè êîäèðîâêè CP-1251 êàê áàçîâîé íà Unix-ñåðâåðàõ ïðèâîäèò ê çíà÷èòåëüíûì òðóäíîñòÿì ïðè ðàáîòå ëþáûõ ïðèëîæåíèé ñâÿçàííûõ ñ ñîðòèðîâêîé è èíäåêñèðîâàíèåì.

Òàêèì îáðàçîì äå-ôàêòî ñëîæèëàñü íåóäîáíàÿ è çàòðàòíàÿ ïî îòíîøåíèþ ê àïïàðàòíî-ïðîãðàììíûì ðåñóðñàì ñèòóàöèÿ - Internet-ñåðâåðà ëèáî ðàñõîäóþò äèñêîâîå ïðîñòðàíñòâî äëÿ ïîääåðæêè íåñêîëüêèõ êîäèðîâîê, ëèáî ïîñòîÿííî çàãðóæàþòñÿ ïðîöåññàìè ïåðåêîäèðîâêè.

5.2 Ìåòîäû ïðåîäîëåíèÿ ïðîáëåì, ñâÿçàííûõ ñ íàëè÷èåì íåñêîëüêèõ êîäîâûõ ñõåì â îñíîâíûõ Internet-ñåðâèñàõ

Ïî âûøåóêàçàííûì ïðè÷èíàì, ðîññèéñêèå ðàçðàáîò÷èêè Internet-ñåðâåðîâ áûëè âûíóæäåíû ðàçðàáàòûâàòü è ââîäèòü ðàçëè÷íûå äîïîëíèòåëüíûå ïðîãðàììíî-òåõíîëîãè÷åñêèå ìåòîäû îáñëóæèâàíèÿ âõîäÿùèõ çàïðîñîâ â ðàçëè÷íûõ êîäèðîâêàõ.

 íàèáîëåå îáùåì ñëó÷àå ìîæíî âûäåëèòü, êàê áûëî óêàçàíî âûøå, äâà ìåòîäà ðåøåíèÿ ýòèõ ïðîáëåì:

  • Ïîääåðæêà äîêóìåíòîâ âî âñåõ êîäèðîâêàõ
  • Àâòîìàòè÷åñêîå ðàñïîçíàâàíèå êîäèðîâêè âõîäÿùåãî êëèåíòà è ïîñëåäóþùàÿ ïåðåêîäèðîâêà ïåðåñûëàåìûõ äîêóìåíòîâ è ïîëó÷àåìûõ çàïðîñîâ

Ýòè ìåòîäû ìîãóò ðåàëèçîâûâàòüñÿ è â íàñòîÿùåå âðåìÿ ðåàëèçóþòñÿ íà ðàçëè÷íûõ ñåðâåðàõ íåñêîëüêèìè ñïîñîáàìè.

Òàêæå ñóùåñòâóåò î÷åíü ðàñïðîñòðàíåííûé (ê ñîæàëåíèþ) ìåòîä íåðåøåíèÿ (ïðèíöèïèàëüíîãî èãíîðèðîâàíèÿ)ïðîáëåìû ñóùåñòâîâàíèÿ ðàçëè÷íûõ êîäèðîâîê. Òàêîé ïîäõîä, ê ñîæàëåíèþ, ðàñïðîñòðàíåí íà ìíîãèõ ñåðâåðàõ (â áîëüøèíñòâå ñëó÷àåâ åäèíñòâåííî ïîääåðæèâàåìîé êîäèðîâêîé âûáèðàåòñÿ KOI-8R).  ýòîì ñëó÷àå íà ñåðâåðå õðàíÿòñÿ äîêóìåíòû ëèøü â îäíîé êîäèðîâêå. Àäìèíèñòðàòîðû òàêèõ ñåðâåðîâ ÷àñòî îïðàâäûâàþò ñâîå íåæåëàíèå ÷òî-ëèáî ìåíÿòü â ñâîåé ñèñòåìå äëÿ îáåñïå÷åíèÿ áîëåå óäîáíîãî èíòåðôåéñà òåì, ÷òî âî-ïåðâûõ KOI-8R äåêëàðèðóåòñÿ èìè êàê ñòàíäàðò êîäèðîâêè äëÿ ðîññèéñêîãî Internet, à âî-âòîðûõ, ÷òî äðóãèå ñèñòåìû ìîæíî ïðèñïîñîáèòü ê KOI-8R, à âîò ñèñòåìû èñïîëüçóþùèå ýòó êîäèðîâêó ê äðóãèì íåò. Íà ñàìîì äåëå è òî è äðóãîå íå ëèøåíî îñíîâàíèé. Îäíàêî, êàê áûëî ïîêàçàíî âûøå, òàêîé ïîäõîä íå ó÷èòûâàåò ñëîæèâøóþñÿ â ðîññèéñêîì Internet ñèòóàöèþ.

Òàêîé ìåòîä ÿâëÿåòñÿ êðàéíå íåóäîáíûì äëÿ ïîëüçîâàòåëÿ íå Unix-ñèñòåì. Áîëåå èëè ìåíåå ïîäãîòîâëåííûé ïîëüçîâàòåëü, ðàáîòàþùèé ñ Windows-ñèñòåìàìè èìååò âîçìîæíîñòü íàéòè â Internet ñåðâåðà íà êîòîðûõ îí ìîæåò ïîëó÷èòü èíôîðìàöèþ î òîì êàê äîáàâèòü ïîääåðæêó KOI-8R â ñâîþ ñèñòåìó è çàãðóçèòü íåîáõîäèìûå ôîíòû, êîòîðûå íå ïîñòàâëÿþòñÿ Microsoft íè â îäíîé èç âåðñèé Windows. Äëÿ ïîëüçîâàòåëåé äðóãèõ ïëàòôîðì ýòà çàäà÷à ìîæåò îêàçàòüñÿ âåñüìà ñëîæíîé.

Ñðåäè ìåòîäîâ íàèáîëåå ÷àñòî èñïîëüçóåìûõ â ðîññèéñêîé ÷àñòè Internet ìîæíî âûäåëèòü ñëåäóþùèå:

1. Ïðåäîñòàâèòü ïîëüçîâàòåëþ âûáðàòü êîäèðîâêó, â êîòîðîé îí æåëàåò (à êîíôèãóðàöèÿ åãî ïðîãðàììû-êëèåíòà ïîçâîëÿåò) ïðîñìàòðèâàòü äîêóìåíòû. Âûáîð êîäèðîâêè îñóùåñòâëÿåòñÿ ÷àùå âñåãî ÷åðåç ìåíþîðèåíòèðîâàííóþ ñèñòåìó ïðè ïåðâîì îáðàùåíèè ê ñåðâåðó è, ðåæå, íà âñåõ ñòðàíèöàõ, êîòîðûå ìîãóò áûòü âåðîÿòíûìè âõîäàìè ïðè "ñêîëüæåíèè" ïîëüçîâàòåëåé â Internet). Ïðè ýòîì âîçíèêàåò òåõíè÷åñêàÿ ïðîáëåìà - êàê ñîõðàíèòü èëè ïåðåêîäèðîâàòü íàïðàâëÿåìûé êëèåíòó äîêóìåíò (âòîðîé ýòàï). Ïðîáëåìà âòîðîãî ýòàïà ìîæåò ðåøàòüñÿ ëèáî ïóòåì õðàíåíèÿ èíôîðìàöèè âî âñåõ 4 êîäèðîâêàõ (ïðè ýòîì íà ñåðâåðå çàïóñêàþòñÿ íåñêîëüêî HTTPD íà ðàçíûõ ïîðòàõ äëÿ êàæäîé èç êîäèðîâîê), ëèáî ïóòåì õðàíåíèÿ èíôîðìàöèè â îäíîé êîäèðîâêå (ïðè ýòîì ðàáîòà ñåðâåðà îðãàíèçîâàíà òàê, ÷òî ïåðåêîäèðîâêà äîêóìåíòà îñóùåñòâëÿåòñÿ ñîãëàñíî ïîðòó íà êîòîðûé ïðèøåë çàïðîñ). Ýòîò ìåòîä ðåøåíèÿ ïðåäñòàâëÿåòñÿ íå î÷åíü óäîáíûì è âåñüìà ðàñòî÷èòåëüíûì ñ òî÷êè çðåíèÿ ðàñõîäîâàíèÿ ðåñóðñîâ. Ýòîò ñïîñîá è ñïîñîá àâòîìàòè÷åñêîãî îïðåäåëåíèÿ êîäèðîâêè ÿâëÿþòñÿ åäèíñòâåííûìè, êîòîðûå îáåñïå÷èâàþò êîððåêòíîå îáñëóæèâàíèå ïðè îáðàùåíèè â ëþáóþ òî÷êó äåðåâà ñòðàíèö WWW ñåðâåðà è ïðè îáðàùåíèè ê áàçàì äàííûõ, âêëþ÷àÿ áèáëèîãðàôè÷åñêèå.

2. Àâòîìàòè÷åñêîå îïðåäåëåíèå êîäèðîâêè, â êîòîðîé ìîæíî ïðîñìàòðèâàòü äîêóìåíòû, ïóòåì àíàëèçà èíôîðìàöèè, ïåðåäàâàåìîé êëèåíòîì â çàãîëîâêå ÍÒÒÐ çàïðîñà. Ýòîò ñïîñîá øèðîêî ïðèìåíÿåòñÿ, íàïðèìåð, íà WWW ñåðâåðàõ ñåòè FREEnet è ïðîåêòà LibWeb. Íà ñåðâåðå äàííûå õðÿíÿòñÿ â âûáðàííîé áàçîâîé êîäèðîâêå è çàòåì ïåðåêîäèðóþòñÿ (ïðè íåîáõîäèìîñòè) ïðè îáðàùåíèè êëèåíòà.

Ïðè ïðèìåíåíèè óêàçàííîãî ñïîñîáà, äàæå åñëè åñòü õîðîøî ïðîðàáîòàííûå àëãîðèòìû ðàçáîðà çàãîëîâêîâ, íåëüçÿ èçáåæàòü âåðîÿòíîñòè íåïðàâèëüíîãî îïðåäåëåíèÿ êîäèðîâêè âõîäÿùåãî çàïðîñà. Ïîýòîìó âîïðîñ î áàçîâîé êîäèðîâêå îñòàåòñÿ îòêðûòûì. Âûáîð íàèáîëåå îïòèìàëüíîé ïî îòíîøåíèþ ê ñíèæåíèþ çàãðóçêè ñåðâåðà áàçîâîé êîäèðîâêè CP-1251 ìîæåò ïðèâåñòè ê íåâîçìîæíîñòè îáñëóæèâàíèÿ êëèåíòà, à âûáîð KOI-8R - ê íåîáõîäèìîñòè ïåðåêîäèðîâêè ïðàêòè÷åñêè âñåõ äàííûõ è ñëåäîâàòåëüíî ê ñíèæåíèþ ýôôåêòèâíîñòè ñèñòåìû. Ïî ýòîé ïðè÷èíå òîðìîçèòñÿ èñïîëüçîâàíèå êîäèðîâêè ISO â êà÷åñòâå áàçîâîé. Êðîìå òîãî, óñëîæíåíèå àëãîðèòìîâ ðàçáîðà çàãîëîâêîâ ïðèâîäèò ê äîïîëíèòåëüíîé çàãðóçêå ñåðâåðà.

Îäíàêî, ýòîò ñïîñîá â íàñòîÿùåå âðåìÿ ÿâëÿåòñÿ ñàìûì óäîáíûì äëÿ ïîëüçîâàòåëåé è áîëåå ýôôåêòèâíûì, ÷åì ðàáîòà ïî ïîðòàì.

5.3 Ïåðñïåêòèâû óíèôèêàöèè ïðåäñòàâëåíèÿ êèðèëëè÷åñêîé èíôîðìàöèè â ðîññèéñêîì Internet.

Êàê áûëî ïîêàçàíî âûøå, â íàñòîÿùåå âðåìÿ, îòñóòñòâóåò åäèíàÿ òåõíîëîãèÿ èñïîëüçîâàíèÿ ðàçëè÷íûõ êîäèðîâîê äëÿ ðåàëèçàöèè Internet-ñåðâåðîâ. Îäíàêî, âñå ó áîëüøåé ÷àñòè ñïåöèàëèñòîâ íå âûçûâàåò ñîìíåíèé, ÷òî óíèôèêàöèÿ - íåîáõîäèìîå óñëîâèå äàëüíåéøåãî ðàçâèòèÿ ðîññèéñêîãî Internet. Íàèáîëåå ýôôåêòèâíûì äëÿ ðåøåíèÿ áîëüøèíñòâà çàäà÷ èíôîðìàöèîííîãî îáñëóæèâàíèÿ ïîëüçîâàòåëåé Internet-ñåðâåðîâ ìîæåò ñòàòü ïîýòàïíûé ïåðåõîä íà åäèíóþ áàçîâóþ êîäèðîâêó (òî åñòü êîäèðîâêó õðàíåíèÿ äîêóìåíòîâ) ñ îáÿçàòåëüíûì ñîõðàíåíèåì òåõíîëîãèé àâòîìàòè÷åñêîãî ïåðåêîäèðîâàíèÿ íà äîñòàòî÷íî äîëãèé ïåðèîä âðåìåíè. Ïðè ýòîì íàèáîëåå óäîáíîé äëÿ áîëüøèíñòâà òèïîâûõ ïðèêëàäíûõ çàäà÷ ÿâëÿåòñÿ êîäèðîâêà ISO-8859-5. Íåìàëîâàæíî, ÷òî ýòà êîäèðîâêà ëèáî ïîääåðæèâàåòñÿ ïðàêòè÷åñêè âñåìè âåäóùèìè ïðîèçâîäèòåëÿìè (è ÿâëÿåòñÿ îáùåïðèíÿòûì ñòàíäàðòîì ISO) ïðîãðàììíîãî îáåñïå÷åíèÿ, ëèáî åå ïîääåðæêà ïëàíèðóåòñÿ. Íàïðèìåð, ïîñëåäíèå âåðñèè Netscape Navigator îáåñïå÷èâàþò ñòàíäàðòíóþ íàñòðîéêó òðåõ êîäèðîâîê CP-1251, KOI-8R è ISO 8859-5. Îäíàêî, âûáîð ëèáî CP-1251 ëèáî KOI-8R ïðèâîäèò â ðÿäå ñëó÷àåâ ê íåñîâìåñòèìîñòè. Ñ äðóãîé ñòîðîíû, ïðèìåíåíèå ISO 8859-5 íà ïåðâîì ýòàïå óâåëè÷èò çàãðóçêó ñåðâåðîâ ïðîöåññàìè ïåðåêîäèðîâêè.

Áîëåå àêòèâíîìó ïðèìåíåíèþ ISO 8859-5 ìåøàåò íåäîñòóïíîñòü public domain ôîíòîâ äëÿ íàèáîëåå ðàñïðîñòðàíåííûõ ïëàòôîðì.

Îäíîâðåìåííî, âûáîð ýòîãî ñòàíäàðòà êàê áàçîâîãî ÿâëÿåòñÿ â äîëãîâðåìåííîì ïëàíå íàèáîëåå ïåðñïåêòèâíûì â ñâÿçè ñ äàëüíåéøèì ïåðåõîäîì íà UNICODE, êîòîðûé íàïðàâëåí íà ïðàêòè÷åñêè ïîëíîå ðåøåíèå çàäà÷è ïðåñòàâëåíèÿ ðàçëè÷íûõ ÿçûêîâ â ýëåêòðîííîé ôîðìå.

Îäíàêî çàäà÷à ïðàêòè÷åñêîãî ïðèáëèæåíèÿ ê ðåøåíèþ ïðîáëåìû óíèôèêàöèè ïðåäñòàâëåíèÿ êèðèëëè÷åñêîé èíôîðìàöèè òðåáóåò äàëüíåéøåãî èññëåäîâàíèÿ è îñíîâàííûõ íà íåì ïðàêòè÷åñêèõ ðàáîò.

6. Ýòàïû äàëüíåéøåãî ðàçâèòèÿ ðàáîò

Ñòàäèÿ 2

  • Ñáîð è àíàëèç ñòàòèñòèêè ðàáîòû Internet-ñåðâåðîâ, ðàáîòàþùèõ ñ êèðèëëè÷åñêîé èíôîðìàöèåé
  • Îïðîñ ýêñïåðòîâ è ïîëüçîâàòåëåé ñ öåëüþ ïîäãîòîâêè ðàíæèðîâàííûõ ïîçèöèé îòíîñèòåëüíî âûáîðà áàçîâîé êîäèðîâêè êèðèëëèöû
  • Îêîí÷àòåëüíûé âûáîð áàçîâîé êîäèðîâêè è ïîñòàíîâêà çàäà÷è ñîçäàíèÿ public domain ôîíòîâ.
  • Íà÷àëî ðàáîò ïî ðàçðàáîòêå òåõíîëîãèè àâòîìàòè÷åñêîãî ðàñïîçíàâàíèÿ âèäà êèðèëëè÷åñêîé êîäèðîâêè âõîäÿùåãî êëèåíòà

Ñòàäèÿ 3

Çàâåðøåíèÿ âñåõ ðàáîò, íà÷àòûõ â ñòàäèè 2.

Ðàçìåùåíèå ðàçðàáîòàííûõ public domain íà ñïåöèàëüíî îðãàíèçîâàííîì Internet-ñåðâåðå è íà ñåðâåðå IflaNet

Ðàçðàáîòêà è íàïðàâëåíèå ðåêîìåíäàöèé â ìåæäóíàðîäíûå è íàöèîíàëüíûå îðãàíèçàöèè, îòâå÷àþùèå çà ïîääåðæêó èíôîðìàöèîííîãî ðåñóðñà è âûðàáîòêó èíôîðìàöèîííîé ïîëèòèêè.

7. Çàêëþ÷åíèå

Ñìååì íàäåÿòüñÿ, ÷òî â íàñòîÿùåé ðàáîòå ïðîâåäåí äîñòàòî÷íî ïîëíûé îáçîð ñóùåñòâóþùèõ ðàçíîîáðàçíûõ ñïîñîáîâ êîäèðîâàíèÿ êèðèëëè÷åñêèõ ñèìâîëîâ äëÿ ïðåäñòàâëåíèÿ èíôîðìàöèè â ýëåêòðîííîì âèäå. Àíàëèç ïîêàçûâàåò, ÷òî íà áëèæàéøóþ ïåðñïåêòèâó íàèáîëåå ïîñëåäîâàòåëüíûì è óäà÷íûì ïðåäñòàâëÿåòñÿ èñïîëüçîâàíèå 8-áèòíîé êîäîâîé ñòðàíèöû ÑÐ-ISO-8859-5 Ìåæäóíàðîäíîé îðãàíèçàöèè ñòàíäàðòîâ ñ ó÷åòîì âñåõ âûøåóêàçàííûõ ñîîòâåòñòâóþùèõ òåõíîëîãèé.

Íàìå÷åíû ìåðîïðèÿòèÿ, êîòîðûå íåîáõîäèìî îñóùåñòâèòü äëÿ óíèôèêàöèè ñòàíäàðòà è òåõíîëîãèè ïðåäñòàâëåíèÿ êèðèëëè÷åñêèõ ñèìâîëîâ â ïðàêòèêó ðàáîòû ïîëüçîâàòåëåé êèðèëëè÷åñêîé èíôîðìàöèè â Internet.

Ëèòåðàòóðà

[1] Ãîñóäàðñòâåííûé ñòàíäàðò Ñîþçà ÑÑÐ ÃÎÑÒ 19768-74. Ìàøèíû âû÷èñëèòåëüíûå è ñèñòåìû îáðàáîòêè äàííûõ. Ãîñóäàðñòâåííûé êîìèòåò ñòàíäàðòîâ ÑÌ ÑÑÑÐ. Ìîñêâà, 1974, 9 ñ.

[2] Áðÿáðèí Â.Ì., Ëàíäàó È.ß., Íåìåíìàí Ì.Å. Î ñèñòåìå êîäèðîâàíèÿ äëÿ ïåðñîíàëüíûõ ÝÂÌ. Ìèêðîïðîöåññîðíûå ñðåäñòâà è ñèñòåìû. - 1986, ¹ 4, ñ. 61-63.

[3] ISO_8859-5 code page. 1988.

URL: http://www.alis.com:8085/langues/codage/iso8859/8859-5.gif

[4] Chernov, A., "Registration of a Cyrillic Character Set", RFC-1489, RELCOM Development Team, July 1993. KOI8-R code page,
URL: http://www.alis.com:8085/langues/codage/iso8859/koi8-r.gif

[5] Ìåæãîñóäàðñòâåííûé ñòàíäàðò ÃÎÑÒ 19768-93. Èíôîðìàöèîííàÿ òåõíîëîãèÿ. Íàáîðû 8-áèòíûõ êîäèðîâàííûõ ñèìâîëîâ. Äâîè÷íûé êîä îáðàáîòêè èíôîðìàöèè. Ìåæãîñóäàðñòâåííûé Ñîâåò ïî ñòàíäàðòèçàöèè, ìåòðîëîãèè è ñåðòèôèêàöèè. Ìèíñê, 1995. 9 ñ.

[6] WWW Cyrillization.
URL: http://www.web.ru/docs/Rus/Diskuss/CP1251/intro.html

[7] MultiWeb - WWW ñåðâåð ñ ïîääåðæêîé ìíîæåñòâà ÿçûêîâ è êîäèðîâîê.
URL: http://multiweb.urc.ac.ru/demo.html

[8] The Unicode Consortium Home Page, URL: http://www.unicode.org, The Unicode Standard, Second Edition. (ISBN: 0-201-48345-9). URL: http://www.stonehand.com/unicode.html.

[9] ISO/IEC JTC2/SC2/WG2. Multi-Octet Coded Character Set. Roadmap to the BMP of ISO 10646. Unofficial, revised HTML version.
URL: http://www.indigo.ie/egt/standards/iso10646/bmp-roadmap.html


© Ðàçðàáîò÷èêè ïðîåêòà, 1997 ã.