Forum Coders' city Strona Główna Coders' city
Nasza pasja to programowanie!
 

 PomocPomoc   SzukajSzukaj   UżytkownicyUżytkownicy   GrupyGrupy  RejestracjaRejestracja 
Archiwum starego forum + teoria    RSS & Panel/SideBar
 ProfilProfil   Zaloguj się, by sprawdzić wiadomościZaloguj się, by sprawdzić wiadomości   ZalogujZaloguj 

Potrzebuję szybkiej odpowiedzi na moje pytanie... Zasady

Znaki Unicode (utf-8): kod 10 (koniec linii) i kod 13 (powrót karetki)



 
Odpowiedz do tematu    Forum Coders' city Strona Główna -> Inne
Zobacz poprzedni temat :: Zobacz następny temat  
Autor Wiadomość
samolot



Dołączył: 26 Sty 2006
Posty: 8376
Skąd: Toru?

PostWysłany: Nie Sty 21, 2018 4:59 pm  OP    Temat postu: Znaki Unicode (utf-8): kod 10 (koniec linii) i kod 13 (powrót karetki) Odpowiedz z cytatem Pisownia

Zastanowi?o mnie, czy we wszystkich zestawach znaków w utf8 zawsze wyst?puj? te same znaki ko?ca linii i powrotu karetki, czyli 10 i 13, niezale?nie od konkretnego zestawu znaków?
Tak mi to wysz?o z mojego "badania unicode".

_________________
Nie zadawaj bezcelowych pyta? / Windows 8.1 / Windows 10 / VB2008 / VB 2010 / VB 2012 / Pisz poprawnie


Ostatnio zmieniony przez samolot dnia Nie Sty 21, 2018 10:11 pm, w całości zmieniany 1 raz
Powrót do góry
Zobacz profil autora Wyślij prywatną wiadomość Wyślij email
mrowek



Dołączył: 28 Maj 2005
Posty: 331
Skąd: pniewy wlkp

PostWysłany: Nie Sty 21, 2018 7:09 pm      Temat postu: Odpowiedz z cytatem Pisownia

ciekawe, imho znaki kontrolne pozosta?y w unicode,


edit:
testujac plan9 znaki specjalne pojawialy sie jako grafiki tego typu
https://en.wikipedia.org/wiki/Unicode_control_characters#Control_pictures

no i odpowiedz jest w tym samej stronie wiki :V
Powrót do góry
Zobacz profil autora Wyślij prywatną wiadomość Numer GG
Sinus32



Dołączył: 20 Sty 2007
Posty: 910

PostWysłany: Nie Sty 21, 2018 9:53 pm      Temat postu: Odpowiedz z cytatem Pisownia

Utf-8 jest jednym ze sposobów kodowania znaków Unicode. Nie istnieje co? takiego jak ró?ne zestawy znaków w utf-8.

Unicode jest jeden i zawiera wszystkie znaki (w zamierzeniu obejmuje wszystkie pisma u?ywane na ?wiecie). UTF-8, UTF-16 BE, UTF-16 LE i UTF-32 s? kodowaniami (sposobami bajtowej reprezentacji) poszczególnych znaków ze zbioru znaków Unicode.

Poj?cie "ró?nych zestawów znaków" nabiera sensu dopiero w odniesieniu do stron kodowych (np: CP 1250, czy OEM 852), lub standardów kodowania jak ISO 8859-2 i ISO 8859-1, które zak?adaj?, ?e ka?dy znak jest kodowany przy u?yciu jednego bajtu. Wtedy te same warto?ci batów koduj? ró?ne znaki, zale?nie od wybranej strony kodowej, lub standardu ISO.

Stron kodowych i standardów kodowania ISO nie mo?na u?ywa? zamiennie, bo nie s? sobie równoznaczne. Np: zarówno CP 1250, jak i ISO 8859-2 koduj? polskie znaki, ale zosta?y zdefiniowane przez ró?ne organizacje i ró?ni? si? kodami niektórych znaków (mi?dzy innymi: ?, ?, ?, ?, ?, ?).

Ka?dy znak we wszystkich stronach kodowych posiada swoje mapowanie na znak z Unicode. Zarówno Unicode, jak i strony kodowe, oraz inne standardy ISO staraj? si? by? zgodne z ASCII. ASCII definiuje znaki z zakresu od 0 do 127 (i tylko te, ?adnego wi?cej), przez co wi?kszo?? stron kodowych i standardów ISO, z Unicode w??cznie, koduje pierwsze 127 znaków tak samo.

Z tego wzgl?du mo?esz bezpiecznie przyj?? pewne praktyczne za?o?enie, ?e je?eli masz do czynienia z kodowaniem, które koduje jeden bajt do jednego znaku, to pierwsze 127 znaków zwykle jest kodowanych samo, a pierwsze 32 znaki (znaki kontrolne) zawsze s? kodowane tak samo. Jest to tak?e prawd? dla kodowania utf-8, które koduje jeden lub wi?cej bajtów na jeden znak.
Powrót do góry
Zobacz profil autora Wyślij prywatną wiadomość Odwiedź stronę autora
samolot



Dołączył: 26 Sty 2006
Posty: 8376
Skąd: Toru?

PostWysłany: Nie Sty 21, 2018 10:52 pm  OP    Temat postu: Odpowiedz z cytatem Pisownia

Za?ó?my, ?e polski tekst mam zapisany w systemie kodowania utf-8 i w nim wyst?puj? znaki steruj?ce LF i CR
Czy, je?li ten tekst przet?umacz? na j?zyk rosyjski i zapisz? go w cyrylicy rosyjskiej, to czy je?li w tym tek?cie wyst?pi? takie znaki steruj?ce LF i CR, to one tam maj? te? kody 10 i 13 ?
Czyli rozumiem, ?e te kody steruj?ce nie s? zale?ne od stron kodowych ale od systemu operacyjnego. Na przyk?ad w systemach Windows s? zawsze takie same, niezale?nie od tego w jakim j?zyku s? zapisane z kodowaniem utf-8?

_________________
Nie zadawaj bezcelowych pyta? / Windows 8.1 / Windows 10 / VB2008 / VB 2010 / VB 2012 / Pisz poprawnie
Powrót do góry
Zobacz profil autora Wyślij prywatną wiadomość Wyślij email
Sinus32



Dołączył: 20 Sty 2007
Posty: 910

PostWysłany: Pon Sty 22, 2018 12:32 am      Temat postu: Odpowiedz z cytatem Pisownia

samolot napisał:
Za?ó?my, ?e polski tekst mam zapisany w systemie kodowania utf-8 i w nim wyst?puj? znaki steruj?ce LF i CR
To oznacza ?e tekst jest w Unicode z wykorzystaniem kodowania utf-8.

samolot napisał:
Czy, je?li ten tekst przet?umacz? na j?zyk rosyjski i zapisz? go w cyrylicy rosyjskiej, to czy je?li w tym tek?cie wyst?pi? takie znaki steruj?ce LF i CR, to one tam maj? te? kody 10 i 13 ?
Tak, niezale?nie od tego czy ten tekst b?dzie zakodowany w utf-8, cp 1251, czy ISO 8859-5.

UTF-8 koduje Unicode, a Unicode zawiera znaki cyrylicy. Unicode zawiera wszystkie znaki.
CP 1251, czyli strona kodowa Windows-1251 równie? zawiera znaki cyrylicy.
Standard ISO 8859-5 powsta? by pokry? j?zyki u?ywaj?ce cyrylicy tj.: j?zyk bu?garski, bia?oruski, macedo?ski, rosyjski, serbski i ukrai?ski sprzed roku 1990.

samolot napisał:
Czyli rozumiem, ?e te kody steruj?ce nie s? zale?ne od stron kodowych ale od systemu operacyjnego.
To rozumowanie nie jest w?a?ciwe.

samolot napisał:
Na przyk?ad w systemach Windows s? zawsze takie same, niezale?nie od tego w jakim j?zyku s? zapisane z kodowaniem utf-8?
UTF-8 nie posiada podzia?u na j?zyki. Nie posiada ?adnych podzia?ów tego typu.

Kody steruj?ce zosta?y zdefiniowane na samym pocz?tku istnienia komputerów, zanim te doczeka?y si? monitorów.
Obecnie s? ustandaryzowane w zestawie znaków ASCII, wi?c s? niezale?ne od systemu operacyjnego. Systemy z rodzin DOS, Windows, Unix i MacOS interpretuj? je tak samo.

Podsumowuj?c:
LF zawsze ma kod 10, niezale?nie od czegokolwiek i wsz?dzie.
CR zawsze ma kod 13, niezale?nie od czegokolwiek i wsz?dzie.
Przypisanie tych kodów nie ma zwi?zku z UTF-8.
Kody te s? zdefiniowanie w ASCII, Unicode, oraz stronach kodowych i innych standardach kodowania.
Powrót do góry
Zobacz profil autora Wyślij prywatną wiadomość Odwiedź stronę autora
Wyświetl posty z ostatnich:   
Odpowiedz do tematu    Forum Coders' city Strona Główna -> Inne Wszystkie czasy w strefie CET (Europa)

Strona 1 z 1

 
Skocz do:  
Możesz pisać nowe tematy
Możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach
Możesz dodawać załączniki na tym forum
Możesz pobierać pliki z tego forum




Debug: strone wygenerowano w 0.24228 sekund, zapytan = 11
contact

| Darmowe programy i porady Jelcyna | Tansze zakupy w Helionie | MS Office Blog |