Metody statystyczne w komputerowym przetwarzaniu języka naturalnego

Piotr Malak

DOI: http://dx.doi.org/10.12775/TSB.2011.003

Abstrakt


Artykuł wprowadza w problematykę wykorzystania metod statystycznych w komputerowym przetwarzaniu tekstów języka naturalnego. Została w nim zaprezentowana lingwistyka kwantytatywna oraz jednostki tekstu podlegające badaniom statystycznym. Przyjęte definicje jednostek leksykalnych poddane zostały dyskusji ze względu na ich przydatność w komputerowym, statystycznym przetwarzaniu języka naturalnego, z uwzględnieniem różnic terminologicznych występujących w polsko- i angielskojęzycznej literaturze przedmiotu. Omówione zostały również cechy statystyczne jednostek leksykalnych oraz kategorie i miary stosowane do ich badań kwantytatywnych.

Słowa kluczowe


przetwarzanie tekstu; języki naturalne; metody statystyczne

Pełny tekst:

PDF

Bibliografia


Bień J. S., Aparat pojęciowy wybranych systemów przetwarzania tekstów polskich. Biuletyn Polskiego Towarzystwa Językoznawczego [on-line] 2006, z. LXII [dostęp 15 grudnia 2010]. Dostępny w World Wide Web: http://www.ptj.civ.pl/component/ option,com_docman/task,doc_download/gid,20/Itemid,8/.

Bień J. S., Koncepcja słownikowej informacji morfologicznej i jej komputerowej weryfikacji [on-line]. Biblioteka Cyfrowa Katedry Lingwistyki Formalnej Uniwersytetu Warszawskiego [dostęp 15 grudnia 2010]. Dostępny w World Wide Web: http://bc.klf.uw.edu.pl/12/2/emph.pdf.

Bień J. S., O pojęciu wyrazu morfologicznego [on-line]. Biblioteka Cyfrowa Katedry Lingwistyki Formalnej Uniwersytetu Warszawskiego [dostęp 15 grudnia 2010]. Dostępny w World Wide Web: http://bc.klf.uw.edu.pl/62/1/jsb-zsE.pdf.

Encyklopedia językoznawstwa ogólnego, wyd. 2 popr. i uzup., pod red. K. Polańskiego, Wrocław 1999.

Hammerl R., Sambor J., O statystycznych prawach językowych, Warszawa 1993.

Hammerl R., Sambor J., Statystyka dla językoznawców, Warszawa 1990.

Jackson P., Moulinier I., Natural Language Processing for Online Applications: Text Retrieval, Extraction and Categorization, Amsterdam/Philadelphia 2002.

Jurafsky D., Martin J. H., Speech and language processing. An introduction to Natural Language Processing, Computational Linguistics and Speech Recognition, New Yersey 1999.

Manning Ch. D., Raghavan P., Schütze H., An introduction to Information Retrieval, Cambridge 2009.

Manning Ch. D., Schütze H., Foundations of statistical natural language processing, Cambridge 1999, s. XXXI XXXII.

Mykowiecka A., Inżynieria lingwistyczna. Komputerowe przetwarzanie tekstów w języku naturalnym, Warszawa 2007.

Pawłowski A., Metody kwantytatywne w sekwencyjnej analizie tekstu, Warszawa 2001.

Pawłowski A., Uwagi na temat korpusu języka polskiego (reprezentatywność, aktualność, nazwa), [w:] Językoznawstwo w Polsce: stan i perspektywy, pod red. S. Gajdy, Opole 2003, s. 165−166.

Saloni Z., Kategoria rodzaju we współczesnym języku polskim, [w:] Kategorie gramatyczne grup imiennych w języku polskim, pod red. R. Laskowskiego, Wrocław – Warszawa 1976, s. 43−78.

Sambor J., Językoznawstwo statystyczne dla pracowników informacji naukowej, Warszawa 1978.

Słownik encyklopedyczny informacji, języków i systemów informacyjno-wyszukiwawczych, oprac. B. Bojar, Warszawa 2002, s. 149.

Słownik frekwencyjny polszczyzny współczesnej, oprac. I. Kurcz i in., pod red. Z. Saloniego, Kraków 1990.

Sobczyk M., Statystyka, Warszawa 2000.

Sobczyk M., Statystyka. Podstawy teoretyczne przykłady – zadania, Lublin 1998.

Tokarski J., Fleksja polska, Warszawa 1978.
ISSN 2080-1807 (print)
ISSN 2392-1633 (online)

Partnerzy platformy czasopism