RSS

Dzielenie wyrazów na stronach WWW: jak je zapisywać?

Liczba odsłon: 88

Uwzględ­nia­jąc dzie­le­nie wy­ra­zów w ko­dzie HTML trze­ba pa­mię­tać, że oz­na­cze­nia miejsc po­dzia­łu mu­szą wy­stę­po­wać wszę­dzie, gdzie po­dział może wy­stą­pić. O ile oso­ba skła­da­ją­ca książ­kę na bie­żą­co wi­dzi, któ­re wy­ra­zy ule­ga­ją po­dzia­ło­wi, a któ­rym to nie gro­zi, autor stro­ny WWW nie wie, jak sze­ro­kie bę­dzie okno prze­glą­dar­ki — i w efek­cie łam tek­stu.

Dla przy­kła­du, wy­raz „po­ro­zu­mie­nie” mu­si zo­stać po­dzie­lo­ny na sy­la­by („po·ro·zu·mie·nie”), a w miejs­cu każ­de­go ta­kie­go po­dzia­łu mu­si zo­stać umiesz­czo­ny kod in­for­mu­ją­cy o nim prze­glą­dar­kę. Dwunastu li­te­rom sło­wa mu­szą to­wa­rzy­szyć cztery kopie do­dat­ko­wej in­for­mac­ji.

Jeżeli za­sto­su­je­my encję ­, ty­po­wą dla ję­zy­ka HTML, ilość da­nych wy­ma­ga­nych do prze­sła­nia tego sło­wa wzroś­nie z dwu­na­stu do dwu­dzie­stu ośmiu baj­tów. Oznacza to ponad dwu­krot­ne zwięk­sze­nie iloś­ci da­nych prze­sy­ła­nych sie­cią — i dwu­krot­nie więk­sze wy­dat­ki, je­że­li pła­ci­my za sto­pień wy­ko­rzys­ta­nia łą­cza sie­cio­we­go ser­we­ra.

O wiele lep­szym roz­wią­za­niem jest za­sto­so­wa­nie ko­do­wa­nia UTF-8. Choć zwięk­sza ono nie­znacz­nie obję­tość tek­stu za­wie­ra­ją­ce­go li­te­ry charak­te­rys­tycz­ne dla pol­skie­go alfa­betu, po­zwa­la po­czy­nić zna­czą­ce oszczęd­noś­ci przy ko­do­wa­niu po­dzia­łu wy­ra­zów na sy­la­by. Ponie­waż znak ADh, w Uni­ko­dzie oz­na­cza­ją­cy miejs­ce po­dzia­łu, za­pi­su­je się w ko­dzie UTF-8 dwo­ma baj­ta­mi, nasz przy­kła­do­wy wy­raz roz­ras­ta się z dwu­na­stu do dwu­dzie­stu baj­tów. Wciąż nie jest to mało, jed­nak w przy­pad­ku bar­dziej ty­po­wych wy­ra­zów, o dłuż­szych sy­la­bach, wy­nik bę­dzie jesz­cze lep­szy i cał­kiem akcep­to­wal­ny.


Właśnie jak patrzyłem w źródło strony to dziwiłem się, że nie ma ­ nigdzie i dopiero teraz, po zamianie kodowania na inne niż UTF-8 wyszła zawartość. Tak czy inaczej, naprawdę fajna sprawa i może póki co uciążliwa (wpisywanie podziału wszystkich wyrazów), to jednak z czasem będzie banalna w wykorzystaniu.
• Uważam, że można by się ograniczyć do wstawiania podziałów tylko w szczególnie długich wyrazach, które najbardziej „psują” układ i wygląd tekstu.
• UTF w połączeniu z unikode bardzo popieram, bo pozwala pisać z większą kulturą: z użyciem prawdziwych cudzysłowów, wielokropka, promila i innych, że nie wspomnę o rewelacyjnej zalecie swobodnego używania znaków z innych języków i alfabetów.
Skoro już mam narzędzie wprowadzające podziały, raczej nie będę ograniczał jego działania tylko do najdłuższych wyrazów. Zazwyczaj podziały i tak wypadają w dłuższych wyrazach.
Co do Unikodu, to również od dawna jestem jego zwolennikiem, a Świat Owoców od dobrych paru lat jest zapisywany właśnie w UTF-8.