Normalizacja tekstu – proces przetwarzania tekstów, nadający mu spójną formę, ułatwiającą dalszą interpretację. Często stosowana jako etap wstępny do późniejszego parsowania. Założeniem normalizacji jest zmiana formy przetwarzanego tekstu z formy pisanej na mówioną. W takim ujęciu zagadnienie to przypomina tłumaczenie automatyczne, gdzie tłumaczony jest tekst pisany na tekst mówiony.
Zam. na os. Jana III Sobieskiego 45A/2.
Ile to jest: 2+2*2?
7 IV odbędzie się 4. Olimpiada Matematyczna dla dzieci w wieku od 11-16 lat.
telefon: (+48) 12-12-12
1000$
Ciągi znaków zamieniane są na wyrazy w oparciu o uprzednio zdefiniowane reguły. Problem jednak stanowią ciągi znaków o wielu interpretacjach, czyli homografy. W takim przypadku, nie znając kontekstu, dany ciąg znaków może być niepoprawnie zinterpretowany. Przykładowo, skrót p. może oznaczać zarówno pan, jak i patrz, a 10 08 94 może przedstawiać datę lub numer telefonu. W celu klasyfikacji takich ciągów znaków, wykorzystywane są drzewa decyzyjne budowane etapami:
Uczę się języka hebrajskiego. Tutaj go sobie utrwalam.
Zawartość tej strony pochodzi stąd.