Uwaga: przeglądasz tę stronę na urządzeniu o niewielkim ekranie (szerokość < 640px). Niektóre zamieszczone w artykule ilustracje i animacje mogą stać się nieczytelne po dopasowaniu ich do rozdzielczości tego ekranu.

Yestok.pl

Jerzy Moruś

Automatyczne dzielenie wyrazów w edytorach tekstów

Niniejsze opracowanie dotyczy zarówno Edytora Word 2007, jak i Writer w wersjach 3.4.1 (Apache OpenOffice) i 4.0.4.2 (LibreOffice). Dlatego zamieściłem je, w tej samej postaci, równocześnie w dwóch działach serwisu. Czytelnik podczas lektury może pominąć nieinteresujące go fragmenty.

Zazwyczaj opracowania przygotowywane w programach edytorskich nie wykorzystują dzielenia wyrazów. Taki sposób przygotowywania prac przyjął się powszechnie, i często wspomagany jest formalnym wymogiem odbiorcy pracy. Pamiętajmy jednak, że podział wyrazów należy do normalnych zasad ortografii, i nie ma powodu do rezygnowania z takich podziałów.

Unikanie dzielenia wyrazów wzięło się, jak sądzę, z doświadczeń z wczesnymi wersjami programów edytorskich. Nie miały one wówczas wbudowanego dobrze działającego mechanizmu dzielenia wyrazów dla języków innych niż angielski, natomiast szybko postępująca „komputeryzacja” procesu pisania, wymagała zastosowania jakichś rozwiązań. Lokalizacja oprogramowania, czyli przygotowanie go w wersjach językowych dla poszczególnych krajów, wymusiła dodawanie coraz sprawniejszych algorytmów dzielenia i uwzględnianie zasad obowiązujących w poszczególnych krajach. Dzisiejsze programy edytorskie realizują to rzeczywiście poprawnie.

Podział słów ma wpływ na graficzny wygląd stron dokumentu. Powszechnie stosuje się dwa rodzaje wyrównywania słów wewnątrz akapitów. Pierwszy to „wyrównanie do lewej”, w którym każda linijka akapitu rozpoczyna się na tej samej pozycji i kolejne wyrazy rozdzielane są tylko znakami wstawianymi przez piszącego (spacja, znak tabulacji). Wyrazy, które nie mogą zakończyć się na prawym krańcu, są albo w całości przenoszone do następnej linii – gdy nie ma zgody na podział – albo są dzielone wg zasad językowych – gdy aktywowano podział słów. W tym trybie wyrównywania, prawa strona tekstu tworzy poszarpaną krawędź. Mówimy o niej, że tworzy chorągiewkę. Stopień „poszarpania” zależy w znacznym stopniu od wybranego trybu i zazwyczaj jest większy, gdy wyrazy nie są dzielone. Decyduje o tym także jeszcze jeden parametr, o którym mowa będzie w dalszej części. Poniższa ilustracja prezentuje ten właśnie akapit, „wyrównany do lewej” z wyłączonym (górna część ilustracji) i włączonym (dolna część) podziałem słów.

Rys. 1: Wpływ dzielenia wyrazów na układ tekstu w akapicie.

Zwróćmy uwagę, że w przypadku tego przykładu, wystarczyło jedno przeniesienie, aby zmienił się zdecydowanie układ akapitu. Drugie przeniesienie, w przedostatniej linijce akapitu, nie miało już na to wpływu.

Drugi rodzaj wyrównania tekstu to „wyrównanie do lewej i prawej”, nazywany też wyjustowaniem. W tym sposobie wyrównywania każda linijka akapitu rozpoczyna się na tej samej lewej pozycji i kończy się na tej samej prawej. Dlatego edytor uzupełnia odstępy między wyrazami, tak aby w miarę równomiernie rozłożyć słowa w wierszach. Tak jak w poprzednim sposobie, wyrazy które nie mogą zakończyć się na prawym krańcu są albo w całości przenoszone do następnej linii – gdy nie ma zgody na podział – albo są dzielone wg zasad językowych – gdy aktywowano podział słów. Prawa strona bloku tekstowego tworzy wyrównaną krawędź, więc edytor tekstowy dodaje więcej lub mniej światła (tak nazywane są odstępy międzywyrazowe) do napisanego tekstu. Ilość dodawanego światła zależy od tego, czy wyrazy są, czy nie są dzielone. Mniej światła wymagane jest zazwyczaj, gdy wyrazy mogą być dzielone.

Przy obustronnym wyrównywaniu tekstu i wyłączonej zgodzie na dzielenie wyrazów, może pojawiać się niekorzystny efekt wpływający na układ tekstu, polegający na pojawianiu się bardzo dużego światła. Dzieje się tak, gdy w tekście pojawia się bardzo długi wyraz. Jego przeniesienie do nowej linijki może zwolnić dużą przestrzeń w linijce poprzedzającej. Pozostałe kilka wyrazów edytor rozmieszcza zgodnie z zasadami wyrównania, tworząc czasami nienaturalnie duże odstępy. Poniżej znajduje się ilustracja obrazująca to zjawisko.

Rys. 2: Dodawanie światła w wyrównaniu obustronnym.

W górnej części powyższej ilustracji pokazano akapit, w którym dzielenie wyrazów jest wyłączone a w dolnej, ten sam akapit, z włączoną opcją dzielenia wyrazów.

Innym, niekorzystnym ze względu na estetykę tekstu, zjawiskiem – tym razem występującym przy włączonym dzieleniu wyrazów – może być występowanie podziału wyrazów w kilku kolejnych, następujących po sobie wierszach. Występować może ono zarówno przy wyrównaniu lewo stronnym jak i obustronnym, powodując kończenie kolejnych wierszy znakiem podziału, co rzeczywiście nie wygląda zbyt elegancko.

Czytelnik może powiedzieć, że edytory przewidują jeszcze dwa rodzaje wyrównywania, „do środka” i „do prawej”. Przy tych rodzajach wyrównywania oczywiście także mogą występować podziały słów i zasady ich powstawania są analogiczne do omówionych przy wyrównywaniu „do lewej”. Te sposoby wyrównania są jednak stosowane do specyficznego, jednostkowego zastosowania w tekście, np. tytuły lub podpisy, i nie stanowią podstawowego sposobu rozmieszczania tekstu.

Edytory tekstowe udostępniają opcje decydujące o tym czy dzielenie wyrazów jest dopuszczalne, czy nie. Robią to jednak w różny sposób.

Jak to robi Word?

O tym jak to robi Writer, przeczytasz, klikając tutaj.

O włączeniu, bądź wyłączeniu podziału słów, oraz o ustaleniu dodatkowych zasad podziału, decyduje w Wordzie grupa poleceń znajdująca się na rozwijanej liście polecenia „Dzielenie wyrazów”. Samo polecenie „Dzielenie wyrazów” znajduje się w grupie „Ustawienia strony” zakładki „Układ strony”.

Parametry programu Word 2007 dotyczące dzielenia wyrazów. — Rys. 3: Rozwijana lista polecenia „Dzielenie wyrazów” w programie Word 2007.

Powyżej znajduje się ilustracja rozwiniętej listy tego polecenia. Widzimy na niej trzy główne opcje wyboru. Opcje te dotyczą zawsze całego dokumentu, a więc także nagłówków i stopek, przypisów, tekstów w tabelach i polach tekstowych. „Brak” – oznacza, że zakazujemy podziału wyrazów, „Automatycznie” – oznacza, że Word ma dzielić wyrazy w miejscach, które uzna za stosowne. Zaznaczenie jednej z tych dwóch opcji natychmiast zmieni stan dokumentu. Trzecia opcja, „Ręcznie”, zadziała inaczej. Ma ona sens, tak naprawdę, gdy w dokumencie brak jest podziału słów. Od miejsca, w którym znajdował się kursor tekstowy w momencie wywołania tej opcji, Word rozpocznie analizowanie kolejnych potencjalnych miejsc podziału. Użytkownik zobaczy dedykowane okienko z propozycjami miejsc podziału wyrazu, który powinien zostać podzielony. Jak na ilustracji poniżej.

Okienko dialogowe ręcznego dzielenia wyrazów. — Rys. 4: Ręczne dzielenie wyrazów i proponowane miejsca podziału

Słowo pokazane w okienku zawiera umieszczone dywizy w miejscach, w których Word uważa, że może zostać podzielone. Jedno z tych miejsc jest wyróżnione mrugającym ciemnym prostokątem a jego odpowiednik, w wyrazie znajdującym się w tekście, jest zaznaczony w miejscu podzielonego słowa. Widać to miejsce na powyższej ilustracji, zaznaczone czerwonym prostokątem. Można wskazać inne niż proponowane miejsce podziału. Oczywiście, jeśli jest to możliwe. Na powyższej ilustracji zaproponowany podział występuje już na pierwszej sylabie, więc wybór innego, dalszego miejsca podziału oznacza w rzeczywistości brak podziału.

Zatwierdzenie okienka przyciskiem „Tak” oznacza akceptację wybranego miejsca podziału, wybór przycisku „Nie” oznacza, że wyraz nie ma być podzielony. Word wykona stosowną akcję i znajdzie następny wyraz, który ewentualnie powinien zostać podzielony. Kliknięcie przycisku „Anuluj”, oznacza zaniechanie dalszego wyszukiwania wyrazów, które powinny zostać podzielone.

Przy ręcznym dzieleniu wyrazów, w miejscu zaakceptowanego podziału, wstawiany jest tak zwany łącznik opcjonalny. Rola tego łącznika będzie wyjaśniona w dalszej części.

Ostatnim poleceniem na liście poleceń „Dzielenie wyrazów” jest polecenie „Opcje dzielenia wyrazów…”. Jego wywołanie otwiera okno dialogowe, takie jak na rysunku poniżej.

Opcje dzielenia wyrazów w programie Word 2007. — Rys. 5: Okno dialogowe opcji dzielenia wyrazów.

Pierwsza opcja tego okienka „Dziel wyrazy automatycznie” jest równoważna wyborowi „Brak” lub „Automatycznie” omówionemu już wcześniej.

Druga opcja „Dziel wyrazy pisane WERSALIKAMI” decyduje o tym, czy wyrazy tak napisane mają, czy nie mają być ewentualnie dzielone. Zazwyczaj tego typu słów nie dzieli się, ze względu na ich specyficzne znaczenie w dokumencie, np. skrót jednej z agend ONZ – UNESCO.

Strefa dzielenia wyrazów.

Ten parametr określa w centymetrach przestrzeń leżącą przy prawej granicy tekstu wyznaczając właśnie taką strefę. Wers tekstu może „wchodzić” do tej strefy, przy czym słowo rozpoczynające się przed nią, lecz niemieszczące się w całości w strefie zostanie podzielone w jej obszarze. Słowo, które miałoby się rozpocząć w strefie, zostanie w niej umieszczone tylko wtedy, kiedy w całości się w niej zmieści. Oznacza to, że czym większą wyznaczy się strefę dzielenia, tym mniej wyrazów będzie dzielonych. Najmniejszą sugerowaną przez Word wartością jest 0,25 cm.

Parametr „Ogranicz kolejne przenoszenia do:” pozwala wybrać lub wpisać liczbę całkowitą albo ustalić jego wartość na pokazaną na ilustracji „Bez ogr.”. Podana liczba mówi w ilu kolejnych wierszach tekstu może ewentualnie występować przenoszenie wyrazów. Wartość „Bez ogr.” Oznacza, że każdy kolejny wiersz może kończyć się znakiem przeniesienia.

W końcu widoczny przycisk „Ręcznie…” rozpocznie opisaną już procedurę ręcznego ustalania miejsca podziału przenoszonych wyrazów.

Może się zdarzyć, że w opracowaniu planujemy fragmenty, w których dzielenie wyrazów jest dopuszczalne (np. tekst w węższych kolumnach, albo tekst okalający ilustrację) oraz takie, w których nie dopuszczamy dzielenia. Jak już wspomniałem opcja włączająca dzielenie wyrazów oddziałuje na cały dokument, więc aby zrealizować taki plan, należy włączyć podział wyrazów a wyłączać go w wybranych miejscach. Można to zrealizować za pomocą jednej z opcji formatowania akapitów. Umiejscowienie tej opcji ukazuje kolejna ilustracja.

Położenie opcji zakazującej dzielenia wyrazó w akapicie. — Rys. 6: Opcja „Nie dziel wyrazów” w parametrach formatowania akapitu.

Opcja ta to „Nie dziel wyrazów”, dostępna na zakładce „Podziały wiersza i strony”, w parametrach formatowania. Jeśli zatem w jednym, lub w wybranych akapitach, dzielenie wyrazów jest niedopuszczalne, należy zaznaczyć taki akapit albo akapity, wywołać formatowanie akapitów i zaznaczyć pokazaną powyżej opcję. Jeśli zamierzamy wykorzystywać ten sposób w wielu miejscach dokumentu, można utworzyć nowy styl akapitu, różniący się od stylu bazowego tylko tym jednym ustawieniem.

Aby pominąć opis Writera i przeczytać dokończenie kliknij tu.

Jak to robi Writer?

O tym, jak to robi Word, przeczytasz klikając tutaj.

Edytory pakietu Apache OpenOffice i LibreOffice, opcję dzielenia wyrazów przypisują do parametrów formatowania akapitu. Okienko dialogowe tego zestawu parametrów przedstawiam na rysunku poniżej.

Umiejscowienie opcji odpowiedzialnych za dzielenie wyrazów w programie Writer. — Rys. 7: Parametry formatowania akapitu w programie Writer.

Ilustracja prezentuje widok zakładki „Przepływ tekstu”, która pozwala ustalić jakie opcje dzielenia wyrazów będą obowiązywały. Dla obu wymienionych wersji programów Writer, wygląd tego okna jest taki sam.

Zaznaczenie opcji „Automatycznie” oznacza, że program edytora sam dokona podziału słów w miejscach, które uzna za właściwe.

Parametr „Liczba znaków na końcu wiersza” określa ile co najmniej liter wyrazu musi znaleźć się na końcu wiersza aby wyraz mógł zostać podzielony.

Parametr „Liczba znaków na początku wiersza” określa ile co najmniej liter musi być przeniesionych do nowego wiersza.

Na rysunku ustawione są wartości 2 w obu okienkach (to są najmniejsze możliwe do ustawienia wartości), oznaczać by to mogło, że podzielone mogą zostać tylko wyrazy co najmniej cztero literowe, i to pod warunkiem że można to zrobić zgodnie z polską ortografią. Jednak doświadczenie empiryczne w obu edytorach pokazuje, że dopiero pięcioliterowe wyrazy podlegają podziałowi.

Ostatni z parametrów „Maksymalna liczba kolejnych podziałów” mówi ile kolejnych wierszy tekstu może zawierać podzielone wyrazy. Wartość 0 (zero) oznacza, że dzielenie wyrazów może występować w każdym kolejnym wierszu akapitu.

Jeśli dokument zawiera części opracowania, w których dopuszczalne jest dzielenie wyrazów jak i takie, w których takie dzielenie jest niedopuszczalne, wystarczy ustawić stosowną opcję w parametrach akapitu. Można też utworzyć nowy styl akapitu w którym ta opcja jest w opozycji do odpowiadającego mu stylu tekstu podstawowego.

Jeśli w edytorze mamy włączoną opcję dzielenia wyrazów, to właściwie wszystko, z jednym wyjątkiem, jest pod kontrolą. Jeśli natomiast opcja dzielenia wyrazów jest wyłączona to i tak mogą zajść sytuacje kiedy podział słowa nastąpi. Tym wyjątkiem jest użycie w tekście znaku łącznika, często określanego jako myślnik, wstawianego do tekstu klawiszem minus z klawiatury numerycznej lub klawiszem łącznika, z części alfanumerycznej. Służy on do tworzenia wyrazów złożonych o równorzędnych członach (Kędzierzyn-Koźle), wyrazów zawierających liczby (bombowiec B-52), tworzenia końcówek fleksyjnych w skrótowcach (Kto był KO-wcem w filmie „Rejs”?) czy tworzenia konstrukcji cyfrowych (kod pocztowy 01-444). W tym zapisie łącznik nie jest poprzedzany ani zakończony odstępem. Użycie tego znaku w tekście, zawsze spowoduje podział – na tym właśnie znaku – konstrukcji go zawierającej, jeśli oczywiście taki podział byłby niezbędny. Dla edytorów tekstowych jest to bowiem sygnał, że w tym miejscu może zostać dokonany podział, bez względu na ustawioną opcję dzielenia wyrazów.

Znakiem, który ma taki sam wygląd jak łącznik, jest dywiz, symbol wykorzystywany do tworzenia znaku przeniesienia części wyrazu do następnego wiersza. Dywiz przylega bezpośrednio do pierwszej części podzielonego wyrazu i jest ostatnim znakiem w wierszu.

Mimo, że oba te znaki wyglądają tak samo, są funkcjonalnie różne. Łącznik jest wprowadzany do tekstu podczas pisania, dywiz jest tworzony przez edytory podczas dzielenia słów. Bywa, że miejsce wstawienia łącznika nie powinno być miejscem podziału słów. Dlatego w edytorach zdefiniowano dodatkowy znak, znak „łącznika nierozdzielającego”, czyli łącznika, który nie będzie miejscem podziału tekstu. W obu edytorach taki łącznik nierozdzielający wprowadzany jest skrótem klawiaturowym CTRL+SHIFT+łącznik. „Łącznik” w tym skrócie oznacza klawisz w części alfanumerycznej klawiatury (w edytorze Word nie można tu zamiennie zastosować znaku minus z części numerycznej, w edytorze Writer, można zamiennie użyć skrótu CTRL+SHIFT+minus). Znak ten użyty w tekście wygląda jak zwykły łącznik, ale nie dopuszcza do podziału tekstu na jego pozycji.

Innym dodatkowym znakiem zdefiniowanym w edytorach jest tak zwany „łącznik opcjonalny”. Znak ten w obu edytorach wprowadzany jest skrótem klawiaturowym CTRL+łącznik. (tutaj także tylko Writer ma równoważny skrót CTRL+minus, wykorzystujący możliwość użycia znaku minus z klawiatury numerycznej). Łącznik opcjonalny jest sygnałem dla edytora, że jeśli zajdzie taka potrzeba, to w jego miejscu można wyraz podzielić i wówczas zostanie zastąpiony drukowalnym dywizem. W zwykłym widoku znak ten jest widoczny na ekranie tylko wówczas gdy staje się miejscem podziału słowa, czyli jest ostatnim znakiem w wierszu. Znak ten jest bardzo przydatny. W dokumencie, w którym słowa nie są dzielone, może zajść bowiem sytuacja, w której zdecydujemy, że wyjątkowo może wystąpić podział jednego słowa. Wstawienie zwykłego łącznika spowoduje jego podział, jednak gdy w wyniku poprawek przeredagujemy tekst, słowo to może wypaść już wewnątrz wiersza, i pojawi się wówczas w tym wierszu, wraz z łącznikiem. Użycie łącznika opcjonalnego, spowoduje ukrycie tego znaku, gdyby wyraz, po przeredagowaniu, znalazł się wewnątrz wiersza.

Czasami użytkownik chciałby wiedzieć, gdzie w tekście znajdują się te dodatkowe znaki i wiedzieć jak wyglądają. W Wordzie wystarczy włączyć wyświetlanie wszystkich znaków a sposób wyświetlania łącznika nierozdzielającego i opcjonalnego zmieni się, można je wówczas zobaczyć w tekście. Writer, te specjalne łączniki traktuje jako pola programu. Ich pokazanie lub ukrywanie reguluje polecenie „Cieniowanie pól” w rozwiniętej liście polecenia „Widok”, albo skrót klawiaturowy CTRL+F8. W odróżnieniu od Worda, w którym wyświetlanie wszystkich znaków zmienia strukturę tekstu, Writer nie zmienia tej struktury przy włączaniu lub wyłączaniu cieniowania pól.

Poniżej, ilustracja pokazująca wspomniane znaki na ekranie monitora dla obu edytorów, w wielkości czcionki 72 pkt., przy włączeniu pokazywania wszystkich znaków (w Wordzie) i włączeniu cieniowania pól (w Writerze).

Wygląd znaków łącznika opcjonalnego i nierozdzielającego w podglądzie wszystkich znaków. — Rys. 8: Prezentacja łączników: zwykłego, nierozdzielającego i opcjonalnego.

Na ilustracji przedstawiłem trzy znaki, po każdym stawiając literę „o”. Pierwszym znakiem jest zwyczajny łącznik, drugim jest łącznik nierozdzielający a trzecim łącznik opcjonalny. Górna część rysunku przedstawia wygląd tych znaków w Wordzie, dolna w programie Writer.

To właśnie łącznik opcjonalny wstawiany jest przez edytor Word przy ręcznym wstawiania znaków podziału. Cechą szczególną łącznika opcjonalnego jest ujawnianie go, w postaci dywizu, tylko wówczas gdy wyraz zostanie podzielony na jego pozycji.