Korpus (ang. corpus, z łac. corpus „ciało”) – zbiór tekstów służący badaniom lingwistycznym, np. określaniu częstości występowania form wyrazowych, konstrukcji składniowych, kontekstów, w jakich pojawiają się dane wyrazy.

Korpusy językowe znalazły szerokie zastosowanie we współczesnej leksykografii. Są też wykorzystywane jako zbiory danych uczących i testowych w metodach uczenia maszynowego stosowanych w przetwarzaniu języków naturalnych.

Niektóre korpusy bywają określane mianem zrównoważonych – oznacza to, że próbki tekstu do korpusu wybrane zostały według specjalnego klucza, tak by zapewnić pożądane proporcje pomiędzy różnymi stylami czy okresami powstawania tekstów. Przykładem korpusu zrównoważonego może być korpus Słownika frekwencyjnego polszczyzny współczesnej (obecnie znany także jako korpus polszczyzny lat 60. XX wieku), składający się w równych częściach (po 10 tys. próbek) z tekstów popularnonaukowych, drobnych wiadomości prasowych, publicystyki, prozy artystycznej i dramatu artystycznego.

Przez korpus równoległy rozumiemy taki zbiór tekstów, w którym każdy tekst ma swój odpowiednik w co najmniej jednym innym języku. Teksty w takim korpusie mogą być zestawione (ang. aligned), np. na poziomie akapitu lub zdania.

Zobacz też

Linki zewnętrzne

  • Narodowy Korpus Języka Polskiego
  • Korpus Języka Polskiego IPI PAN
  • Korpus Polskiego Języka Migowego
  • BNC – Brytyjski Korpus Narodowy
  • Korpus mowy AGH. dsp.agh.edu.pl. [zarchiwizowane z tego adresu (2016-03-04)].
  • Audiowizualny korpus mowy AGH
  • Korpus emocji w mowie AGH. dsp.agh.edu.pl. [zarchiwizowane z tego adresu (2016-03-04)].

Witaj

Uczę się języka hebrajskiego. Tutaj go sobie utrwalam.

Źródło

Zawartość tej strony pochodzi stąd.

Odsyłacze

Generator Margonem

Podziel się