ҚалыптастыруКолледждер мен университеттер

Corpus Linguistics не?

Тек бірнеше онжылдықтар бұрын лингвистикалық зерттеулер автоматтандыруға, ғалымдар тек армандай алатын. жұмыс қолмен жасалды, ол студенттердің үлкен санын тартады, елеулі ықтималдығы «абайсыз» қателіктер бар, ал ең бастысы - бұл барлық ұзақ, ұзақ уақыт алды.

Компьютерлі технологияларды дамыту тезірек тәртібін зерттеулер жүргізу мүмкін болды, және бүгінгі күні тілді зерттеуде ең перспективалы бағыттарының бірі корпус лингвистика болып табылады. Оның басты ерекшелігі арнайы жолмен, бір деректер базасына мәтін ақпаратты, ақпараттың үлкен көлемде пайдалану болып табылады және белгіленген орган деп аталатын.

Бүгінгі күні, ондаған лексикалық бірлік миллиард дейін миллиондаған қамтитын түрлі тілдік материал негізінде түрлі мақсаттарда құрылған көптеген ғимараттар бар. Бұл бағыт перспективалы ретінде танылады және қолдану және зерттеу мақсаттары бағытында елеулі табыстарға көрсетіп отыр. Сарапшылар, бір жолы немесе табиғи тілде басқа коммерциялық, ол кем дегенде базалық деңгейде мәтіндерді органмен танысуға ұсынылады.

корпус лингвистика тарихы

Бұл бағыттың қалыптасуы өткен ғасырдың басында 60-ші жылдары Brown орган Біріккен Штаттарының құруға байланысты. жинау сөз формаларының барлық 1 млн мәтіндерін қамтиды, және бүгінгі күні осы мөлшерін денесі толық бәсекеге болар еді. Бұл компьютер технологиясының даму қарқыны, сондай-ақ, жаңа ғылыми-зерттеу ресурстарына өсіп келе жатқан қажеттіліктерін түсіндіріледі.

корпус лингвистика толық және тәуелсіз пәні ішіне пайда 90-шы жылдары, мәтіндерді жинау әзірленді және тілдерді ондаған белгіленген. Осы кезеңде ол құрылды, мысалы, британдық Ұлттық Corpus 100 млн жетондар.

тіл білімінің осы саладағы дамуымен, мәтін көлемі көбірек болып (және сөздік бірлік миллиардтаған жетеді), және орналасу көп түрлі болып отыр. Бүгінгі күні, Интернет ғарыш өліктері жазбаша табылған және тілді, көптілді, және оқыту-бағдарланған көркемдік немесе академиялық әдебиет, сондай-ақ көптеген басқа да түрлерін ауызша болады.

тұрғын үй қандай

дене лингвистика Дене түрлері бірнеше себептер бойынша берілуі мүмкін. Интуитивті жіктеу үшін негіз мәтін тілі (орыс, неміс), қол режимі болуы мүмкін (көзі ашық, коммерциялық жабық), бастапқы материал (фантастика, деректі, академиялық, журналистика) жанрлық.

Қызықты жолы ауызекі тіл материалдарды жасайды. қасақана респонденттердің үшін жасанды ортаны құру үшін осындай сөйлеу жазу, және нәтижесінде материалдық «өздігінен» деп аталатын мүмкін емес болғандықтан, қазіргі заманғы корпус лингвистика басқа жолды өтті. Волонтерлер микрофон жабдықталған, ал күндіз ол қатысатын барлық әңгімелер жазбасын, өндіріледі. айналасында адамдар, әрине, күнделікті сөйлесу барысында ғылымның дамуына ықпал ететінін білмеуі мүмкін.

Кейінірек рекорд базасында сақталады және басылған мәтін транскрипт түріне жүреді алды. Осылайша, ол ауызша күнделікті сөйлеу тұрғын үй құру үшін қажетті ықтимал белгілеу болып.

қолдану

Мүмкіндігінше тілі, және ғимараттар мәтіндерді бәлкім пайдалануы. лингвистика корпуспен қолдануға әдістері болуы мүмкін:

  • пернесін анықтау бағдарламасын жасау, кеңінен тиісінше, сайлаушылардың және клиенттердің оң және теріс жауап қадағалап саясат пен бизнесте пайдаланылады.
  • олардың өнімділігін жақсарту үшін сөздіктер мен аудармашылар қосылу ақпараттық жүйе.
  • тілдік бірліктің, оның даму тарихы мен жақын арада өзгерістер болжау түсінуге ықпал зерттеу тапсырмаларымен.
  • , Морфологиялық синтаксистік, семантикалық және басқа да ерекшеліктеріне негізделген ақпараттық-іздеу жүйесін дамыту.
  • түрлі лингвистикалық жүйелерін және т.б. оңтайландыру.

ғимараттардың пайдалану

типтік іздеу қозғалтқышы бар ұқсас ресурс интерфейс, және ақпараттық базасын іздеу үшін сөздер сөз немесе комбинациясын енгізуіңіз пайдаланушыны сұрайды. Сонымен қатар, дәл сұрауы іс жүзінде кез келген лингвистикалық өлшемдер бойынша мәтіндік ақпаратты табуға мүмкіндік береді жетілдірілген нұсқасын, пайдалануға болады қалыптастыру.

іздеу базасы болуы мүмкін:

  • сөйлеу бөліктерінің белгілі бір топқа;
  • грамматикалық ерекшеліктері;
  • семантикасын;
  • стилистикалық және эмоциялық бояу.

Сіз сондай-ақ шылау «» және айыптау жағдайда зат кейін келіп сингулярлық осы шақ, бірінші адамның, етістік бүкіл кездесулерді таба, мысалы, сөздер ретпен іздеу критерийлерін біріктіруге болады. Мұндай қарапайым тапсырмаға шешім пайдаланушыға бірнеше секунд созылады және көрсетілген салаларда ғана бірнеше рет тінтуірдің талап етеді.

жасау процесі

іздеу өзі белгілі бір мақсатқа жетуде қажеттіліктеріне байланысты, барлық subcorpus және арнайы таңдаған бірінде жүзеге асырылуы мүмкін:

  1. алғашқы қадам жағдайда үшін негіз қалыптастыру мәтіндер, ол анықтау болып табылады. Практикалық мақсаттар үшін, ол жиі журналистік, жаңалықтар, онлайн пікірлеріңізді пайдаланылады. ғылыми-зерттеу жобасы пакеті түрлерінің әр түрлі пайдалану болып табылады, бірақ мәтін кейбір жалпы жерге сәйкес таңдалуы тиіс.
  2. алдын ала өңдеу жататын мәтіндерді нәтижесінде жинау, мәтіннің библиографиялық және қосымша-лингвистикалық сипаттамасы дайындаған қателерді түзету, егер бар болса, бар.
  3. барлық емес мәтіндік ақпаратты алынып тасталады: графика, суреттер, кестелер тазалайды.
  4. әдетте одан әрі өңдеу үшін сөйлеу, бар Төкен, бойынша бөлу болып табылады.
  5. Ақыр аяғында, ол элементтердің көптеген алынған, морфологиялық синтаксистік және басқа да таңбаларды асырылады.

Сөз бөлігін анықтады, олардың әрқайсысы элементтерін онда бөлінген көптеген, бар синтаксистік құрылымы жасалған барлық операциялар нәтижесі, грамматикалық және, кейбір жағдайларда, семантикалық атрибуттары.

ғимараттар құру қиындықтар

Ол сол денеге арналған сөздер немесе сөйлемдер жиынтығын бірге қоюға жеткілікті емес түсіну маңызды болып табылады. Бір жағынан, мәтіндерді жинау теңдестірілген болуы тиіс, яғни, белгілі бір пропорцияда мәтіндерді әр түрлі болып табылады. екінші жағынан - корпусындағы мазмұны арнайы жолмен қашықтықта болуы тиіс.

Бірінші мәселе келісім арқылы шешіледі: мысалы, жинау әдеби мәтіндерді 60%, деректі фильмдер 20% қамтиды, белгілі бір пайызы бүгінде жоқ ауызекі тіл, заңнаманы, ғылыми жұмыстардың, т.б. тамаша рецепт теңдестірілген органның жазбаша өкілдігін беріледі ...

мазмұны орналасуына қатысты екінші мәселе, күрделі шешу. Онда мәтіндерді таңбалау автоматты үшін пайдаланылатын арнайы бағдарламалар мен алгоритмдер бар, бірақ олар тамаша нәтиже береді емес, шалыс тудыруы және қолмен өңдеу саңылауларын талап ете алады. Бұл проблеманы шешу мүмкіндіктері мен проблемалары қағаз корпус лингвистика V. П. Захарова егжей-тегжейлі сипатталған.

Мәтін белгілеу біз төменде тізіп бірнеше деңгейде жүзеге асырылады.

морфологиялық тегтеу

мектеп, біз орыс тілінде, онда сөз әр түрлі бөліктері болып табылады, және олардың әрқайсысы өз ерекшеліктері бар екенін есте сақтаңыз. Мысалы, етістік көлбеу және ешқандай зат уақыт санаты бар. ойланбастан ана тілі зат бастайтын етістіктерді бас тартады, бірақ 100 млн денесін белгілеу үшін. қолмен еңбек жұмыс істемейді таңбалауыштарын. Барлық қажетті операциялар компьютерді орындауға болады, алайда, бұл үшін оны үйрету қажет.

Морфологиялық тегтеу, компьютерлік белгілі грамматикалық ерекшеліктері бар сөйлеу белгілі бір бөлігі ретінде әр сөзін «түсіну» керек. Ресей (және кез келген басқа тілде) тұрақты ережелер бірқатар жұмыс істейді болғандықтан, ол алгоритмдер бірқатар үшін автомобильде инвестиция, морфологиялық талдау үшін автоматты тәртібін салуға болады. Алайда, ережеден алып, сондай-ақ әр түрлі күрделенуі факторлар бар. Нәтижесінде, бүгінгі таңда таза компьютерлік талдау Идеал алыс, тіпті 4% қате 4 млн мәні береді. 100 млн ағзасына сөздері. Units, қолмен өңдеу саңылауларын талап.

Толық кітап мәселені Захарова В. П. «Corpus лингвистика» сипаттайды.

синтаксистік аннотация

Талдау немесе талдау - сөйлемдегі сөздер қарым-қатынас анықтайтын процедура. алгоритмдер кешенін пайдалану сөйлеу тақырыбы, предикат, толықтырулар, бірнеше кезекпен мәтінін анықтауға болады. Негізгі тізбегі болып табылатын сөздер біл, және ол - тәуелді, біз тиімді мәтіннен ақпаратты шығарып алады және бізді қызықтыратын тек ақпарат іздеу сұрауына жауап беруге машинаны үйрету.

Айтпақшы, қазіргі іздеу, мысалы, «қанша калория алма жылы» немесе тиісті сұрау жауап нақты сандарды орнына ұзақ мәтіндерді беруге осы пайдалану «Санкт-Петербург Мәскеуден қашықтықта.» Алайда, немесе басқа да негізгі оқулықта «Corpus Тіл біліміне кіріспе» кеңес қажеттігі сипатталған процесінің тіпті негіздерін түсіну.

семантикалық белгілеу

сөздің семантикасы - мағынасы, қарапайым тілмен айтқанда, болып табылады. оның семантикалық санаттар мен ішкі санаттар жиынтығы тиесілі көрсететін сөз атрибуциясы тегтер семантикалық талдау кеңінен қолданылатын тәсіл. Мұндай ақпарат оңтайландыру алгоритмдері мәтін түсін, Автоматты орытындылау мен корпус лингвистика басқа міндеттер әдістерін талдау үшін құнды болып табылады.

өте кең семантикасы бар, бағзы сөз білдіретін ағаштың «тамыры» бірқатар бар. ағаш түйіндерінің филиалы ретінде көбірек нақты лексикалық элементтері бар, қалыптасады. Мысалы, сөз «жаратылыс», «адам» және «жануар» сияқты ұғымдарды байланысты болуы мүмкін. жануарлар сыныптары мен түрлері бойынша - бірінші сөз, әр түрлі кәсіп, туыстық терминдер, ұлтына, және екінші шығып салалық жалғастырады.

ақпараттық-іздеу жүйелерін пайдалану

корпус лингвистика пайдалану бағыттары қызметінің түрлі өрістерін қамтиды. Корпустары түсін және басқа да мәтін өңдеуді анықтау, фактілер шығарып, аннотациялау автоматтандырылған аударма жүйелерін құру, сөздіктер дайындау және түзету үшін қолданылады.

Сонымен қатар, мұндай ресурстар белсенді әлем тілдері және жалпы тіл жұмыс істеу тетіктерін зерттеу қолданылады. Алдын-ала дайындалған ақпараттың үлкен көлемін қол жеткізу Тілдерді дамыту үрдістерін тез және жан-жақты зерттеу жеңілдетеді, және тұрақты қалыптастыру неологизмдер сөйлеу жылдамдығы өзгеруі лексикалық бірлік және өзгелерді бағалайды.

деректердің осындай үлкен көлемді жұмыс автоматтандыруды талап болғандықтан, бүгін компьютерлік және корпус лингвистика арасындағы тығыз өзара іс-қимыл жоқ.

Ресей ұлттық Corpus

Бұл жағдайда (NKRYA қысқартылған) міндеттердің кең түрлі үшін ресурс қолдануға мүмкіндік беретін, subcorpus бірқатар қамтиды.

базасында материалдар NKRYA бөлінеді:

  • отандық және шетелдік БАҚ «90-шы жылдары және 2000 жылы басылымдар үшін;
  • Жазу сөйлеу;
  • aktsentologicheski мәтіндерді (стресс яғни, белгілері) белгіленген;
  • диалект сөйлеу;
  • поэзия;
  • синтаксистік және басқа да таңбалауды бар материалдар.

ақпараттық жүйе, сондай-ақ ағылшын, неміс тілінен орыс тіліне жұмыстарды параллель аудармалар, француз және басқа да көптеген тілдерде (және керісінше) бар Subcorpus кіреді.

Сондай-ақ, деректер базасында тарихи мәтіндерді бөлім оның даму әр түрлі кезеңдерде орыс тілінде жазылған сөз білдіретін, бар. Орыс тілін меңгеру шетелдік азаматтар үшін пайдалы болуы мүмкін оқу орган, сондай-ақ бар.

Ресей Ұлттық Corpus 400 млн лексикалық бірліктен, және көптеген жолдармен алда Еуропа органдарының тілдерді айтарлықтай бөлігін.

болашағы

Бұл бағыттың тану пайдасына факт Ресей ЖОО-зертханалық корпус лингвистика перспективалы болуы болып табылады, сондай-ақ шетелдік. Бұл ақпаратты және іздеу ресурстарды шеңберінде пайдалану және зерттеу, жоғары технологиялар саласындағы Сұрақ-жауап жүйелерін белгілі бір салаларында дамуын әкеп соғады, бірақ ол жоғарыда талқылануда.

корпус лингвистика одан әрі дамыту, компьютерлер мүмкіндіктерін кеңейту, техникалық және ақпаратты іздеу және өңдеу процестерін оңтайландыру жаңа алгоритмдерін іске асыру тұрғысынан бастап, барлық деңгейде көп ЖЖҚ болжануда, және тұтынушыға, пайдаланушылар олардың күнделікті ресурстың осы түрін пайдалануға көбірек жолдары болып табылады, өйткені өмірі мен шығармашылығы.

Қорытындылай келе

Өткен ғасырдың ортасында 2017 жылы ғарыш адамдар үшін барлық жұмыс істеу Әлемнің және роботтар арқылы саяхат алыс болашақта, көрінді. Шын мәнінде, ғылым «ақтаңдақтарды» береке мен үрейлі ғасырлар бойы адамзаттың сұрақтарға жауап беру үшін, партия әрекет жасау болып табылады. мұнда тілдің жұмыс істеуін Сұрақтар құрметті орын алады, және шкаф және есептеу лингвистика оларды жауап беруге көмектеседі.

үлкен деректер массивтерін өңдеу дерлік нақты уақыт сөздер қалыптастыру қадағалауға нақты тілдік ерекшеліктерін дамуын болжауға, жетпейтін бұрын, үлгілерін анықтай алады.

практикалық деңгейде, жаһандық қоршаулар қоғамдық көңіл-күй бағалау үшін әлеуетті құралы ретінде, мысалы, көруге болады - Интернет нақты пайдаланушылар жасаған үнемі жаңартылып күнделікті негізі әртүрлі мәтіндер болып табылады: осы Пікірлер, мен мақалалар, және сөйлеу басқа да көптеген нысандары.

Сонымен қатар, органдармен жұмыс ақпараттық іздеу тартылған сол аппараттық, дамуына ықпал, біз қызмет таныс «Google» немесе «Яндекс», машиналық аударма, электрондық сөздіктер.

Біз сенімді корпус лингвистика ғана алғашқы қадамдарын жасайды деп айтуға болады, және жақын арада гүлдене болады.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 kk.birmiss.com. Theme powered by WordPress.