|
|
|
Limba română pe Internet
Dacă v-aţi întrebat vreodată cum se poate reproduce corect limba română pe Internet, voi încerca să vă dau câteva răspunsuri. Articolul urmăreşte în principal problema diacriticelor, a caracterelor specifice limbii române. În limbaj IT aceasta înseamnă orice caracter dintr-un alfabet (respectiv al limbii române) care nu apare în alfabetul limbii engleze.
Starea de lucruri la acest moment pe web-ul românesc arată o creştere a numărului de site-uri localizate în limba română, respectiv cu diacritice reprezentate (într-o formă sau alta) în limba română. Evident este o situaţie empirică, o analiză reprezentativă fiind destul de greu de realizat.
Creşterea ponderii site-urilor localizate se simte însă vizibil, lucru valabil nu numai pentru limba română. Marile corporaţii îşi localizează site-urile în cât mai multe limbi pentru a se adresa unui public mai larg.
Punctual pentru limba română ca şi pentru orice altă limbă ce conţine caractere care nu se regăsesc în limba engleză publicarea diacriticelor ar avea ca soluţii posibile următoarele cazuri neexhaustive:
a. Diacriticele sunt publicate ca atare (ă, î, â, ş, ţ)
În acest caz, redactarea codului web se face într-un mediu de editare care acceptă reprezentări Unicode. Particularitatea constă în notarea charset-ului de afişare a paginii. Charset-ul este un set de caractere care este transmis spre interpretarea browser-ului printr-un tag meta de forma <\meta http-equiv="content-type" content="text/html; charset=ISO-8859-2"\>, unde ISO 8859-2 este setul de caractere Latin 2 care conţine şi caracterele limbii române.
Reprezentarea prin caractere introduse direct din tastatură este cea mai la îndemână soluţie datorită implementării facile şi este folosită chiar şi de către GoogleTM.
Partea negativă a acestei soluţii este afişarea eronată în funcţie de encoding-ul setat în browserul cu care se vizualizează pagina Internet care conţine diacritice. Spre exemplu, în afişarea implicită, www.google.ro produce rezultatul scontat, însă priviţi ce se întâmplă dacă se setează codarea paginii din browser din UTF-8 în
Western European (IE6 - View - Encoding - Western European). Pagina nu mai este afişată corect, dar în fond câţi dintre vizitatorii acestui site au forţat Encoding-ul spre alt set de caractere decât cel implicit?
O altă dificultate este recunoaşterea acestor caractere şi operaţiile suplimentare (ca de exemplu căutarea) care se doresc a fi făcute într-o astfel de pagină.
b. Diacritice cu reprezentare în entităţi html
Entităţile html sunt succesiuni de coduri Unicode de forma CU;1 care sunt recunoscute imediat de către orice browser, fără a mai fi nevoie, de fapt independent de setul de caractere stabilit în pagină de către dezvoltatorul acesteia sau de codarea paginii setată de vizitator. Practic se interpretează corect în orice browser, indiferent de orice alte acţiuni asupra paginii, desigur sub restricţia ca sistemul de operare de pe calculatorul vizitatorului să aibe instalat suportul pentru limba respectivă. Încercaţi schimbarea Encoding-ului şi pentru această pagină şi veţi observa că diacriticele vor fi reprezentate corect2.
Evident trebuie să fie şi în acest caz o parte negativă şi aceasta ţine în principal de modul de alcătuire a paginii. Timpul de implementare poate fi considerabil crescut datorită necesităţii schimbării diacriticelor în entităţi html.
Imaginea companiei dumneavoastră poate avea de suferit dacă nu acordaţi suficientă atenţie unei reprezentări corecte a diacriticelor. Alegeţi oricare dintre cele două variante expuse mai sus. În definitiv o scriere corectă reprezintă întotdeauna un plus de imagine.
1. În entitatea html prezentată de forma CU;, CU este codul Unicode al caracterului respectiv.
2. Reprezentarea diacriticelor româneşti are alte probleme mai adânci legate de sistemul de operare WindowsTM. Mai multe despre codiţele literelor ş şi ţ puteţi găsi aici.
|
|
|