Гайд по использованию лингвистических корпусов в преподавании языков и литературы в школах и вузах
Гайд по использованию лингвистических корпусов в преподавании языков и литературы в школах и вузах
Авторы:
Тамара Юрьевна Киселёва, кандидат филологических наук, доцент
Татьяна Анатольевна Куделько, магистр педагогики
Вместо предисловия
Большую часть времени работы любого педагога занимают разработка и поиск материалов.
— Хотите освоить инструменты, которые помогут вам с легкостью анализировать огромные массивы текстов?
— А также быстро и продуктивно использовать готовые материалы в своих занятиях, сэкономив уйму времени для себя и своей семьи?
— Хотите понять, как работают современные технологии обработки естественного языка (NLP), и как они могут помочь в вашей работе или исследованиях?
Если «да», тогда — Добро пожаловать в мир больших данных и языка!
Корпусные технологии пока не так популярны в цифровом инфополе. И мало кто понимает, как они устроены. Поэтому и родился этот гайд, чтобы познакомить вас с миром корпусов. Корпусные технологии гораздо круче имеющихся на сей момент сервисов, чат-ботов, нейросетей и других представителей искусственного интеллекта, поскольку, в отличие от других ИИ не ограничивают человеческое творчество и интуицию. Кроме того, используя корпусы, вы получаете доступ к самым актуальным аутентичным языковым материалам из различных сфер и реальных жизненных ситуаций. Выбор таков: обучать живому языку, функционирующему здесь и сейчас, или работать с искусственными шаблонными учебными текстами.
Гайд рассчитан на новичков в области корпусных технологий, но может быть полезен и тем, кто уже применяет в своей работе корпусы, так как несомненно расширит ваши представления о сферах их применения.
Каждый найдет, как применить его у себя в преподавательской деятельности, исследованиях или учебе: учителя и репетиторы, преподаватели и исследователи, ученики и студенты.
В гайде мы простым и доступным языком предлагаем пошаговую инструкцию работы с корпусами, начиная с регистрации, включая разработку упражнений и поиск готовых материалов, и заканчивая подробными рекомендациями по применению. Особое внимание уделили разработке материалов для подготовки к экзаменам.
С этим гайдом можно существенно повысить качественный уровень обучения языку и вовлечь учащихся в процесс учебы.
Со временем гайд будет обновляться, добавим туда новые разделы, исходя из ваших вопросов и предложений.
Останутся вопросы — добро пожаловать на наш канал (ссылка) о новых технологиях в образовании. В нанале будет создан чат поддержки пользователей.
Желаем удовольствия в изучении и освоении гайда!
Как и что будем изучать?
Навигация по гайду
— Что такое «лингвистический корпус»?
— Как корпуса помогают преподавателям: 7 ключевых областей применения — Термины и сокращения — Обзор НКРЯ — Национального корпуса русского языка — Как искать информацию в корпусе — Подготовка учебных материалов с НКРЯ — Поиск готовых материалов, упражнений, заданий — Готовимся к ОГЭ и ЕГЭ по русскому языку — Обзор англоязычных языковых корпусов — Подготовка учебных материалов с COCA- корпус американского английского — Готовимся к ОГЭ и ЕГЭ по английскому языку — Обзор корпуса немецкого языка (DWDS) — Разработка и поиск готовых учебных материалов с DWDS — Готовимся к ОГЭ и ЕГЭ по немецкому языку — Возможности языковых корпусов для преподавания литературы — Алгоритм работы с корпусами и рекомендации преподавателям
— Применение корпусных технологий в научно-исследовательской деятельности
— Ответы на вопросы. Отзывы и рекомендации. Отсылка в канал
Что такое «лингвистический корпус»?
Лингвистический корпус — это собрание текстов, организованное таким образом, чтобы его было удобно использовать для лингвистических исследований и анализа. Такие корпусы могут включать различные типы текстов: от художественной литературы до научных статей, газетных публикаций и разговорной речи. Важная особенность лингвистических корпусов заключается в том, что они аннотируются, то есть снабжаются дополнительной информацией, которая облегчает их использование для анализа.
Вот основные элементы, которые могут присутствовать в лингвистическом корпусе:
— Текстовая информация — сами тексты, собранные для анализа.
— Морфологическая разметка — обозначение частей речи, падежей, родов и других характеристик слов.
— Синтаксическая разметка — указание на структуру предложений, отношения между частями речи и т. д.
— Семантическая разметка — присвоение словам и выражениям семантических категорий, например, темам, значениям и пр.
— Метаданные — дополнительная информация о тексте, такая как автор, дата написания, источник, жанр и т. д.
Примеры известных лингвистических корпусов:
— Национальный корпус русского языка (НКРЯ) — крупнейшее собрание русских текстов, содержащее свыше 600 млн словоформ, созданное в 2000-х годах коллективом лингвистов под руководством В. А. Плунгяна.
— British National Corpus (BNC) — англоязычный корпус, созданный в 1990-е годы, включает около 100 млн слов, собранных из различных источников.
— Corpus of Contemporary American English (COCA) — корпус современного американского английского языка, основанный Марком Дэвисом в 2008 году, насчитывает более 560 млн слов.
— DWDS — немецкий корпус, запущенный в 2017 году, содержит более 10 млрд слов, созданных Институтом немецкой лексикографии Берлин-Бранденбургской академии наук.
Использование лингвистических корпусов позволяет исследователям выявлять закономерности в языке, сравнивать разные стили и жанры, изучать эволюцию языка во времени и многое другое.
Как корпусы помогают преподавателям: 7 ключевых областей применения
Корпусы — это коллекции текстов, структурированные таким образом, чтобы облегчить их обработку и анализ. Они играют важную роль в образовании и исследовательской деятельности преподавателей. Рассмотрим ключевые области применения корпусов и их преимущества перед сервисами и нейросетями, предлагающими готовые решения.
1. Обучение языкам
Корпуса позволяют преподавателям языков демонстрировать студентам реальные примеры использования языка в контексте. Это особенно полезно при изучении лексики, грамматических конструкций и идиоматических выражений. Например, преподаватель может показать, как определенные слова или фразы употребляются носителями языка в разных ситуациях.
Преимущества перед готовыми решениями: Готовые сервисы могут предлагать ограниченные наборы примеров, тогда как корпусы предоставляют доступ к реальным текстам, что позволяет лучше понять нюансы языка.
2. Лингвистические исследования
Преподаватели-лингвисты используют корпусы для изучения языковых закономерностей, таких как частотность употребления определенных слов, коллокаций и синтаксических структур. Корпусы также полезны для сравнительного анализа разных диалектов и стилей речи.
Преимущества перед готовыми решениями: Нейронные сети и сервисы могут предложить только поверхностный анализ без глубокого понимания контекста и структуры языка. Корпусы же дают возможность проводить более детализированное исследование.
3. Создание учебных материалов
Преподаватели могут использовать корпусы для создания аутентичных учебных материалов, основанных на реальных примерах из жизни. Это помогает сделать обучение более интересным и эффективным, так как студенты работают с живым языком, а не искусственными конструкциями.
Преимущества перед готовыми решениями: Готовые материалы, предлагаемые сервисами, могут быть стандартными и не всегда соответствовать конкретным потребностям студентов. Корпусы позволяют создавать индивидуальные учебные программы.
4. Оценка знаний студентов
Корпусы можно использовать для разработки тестов и заданий, основанных на реальных текстах. Это делает процесс оценки более объективным и приближенным к реальной практике. Студенты могут продемонстрировать свои навыки работы с текстовой информацией, что является важным аспектом обучения.
Преимущества перед готовыми решениями: Сервисы могут предлагать шаблонные тесты, которые не всегда учитывают специфику курса или уровня подготовки студентов. Корпусы позволяют адаптировать задания под конкретные нужды.
5. Исследования в области педагогики
Преподаватели могут использовать корпусы для анализа эффективности различных методов обучения. Например, они могут исследовать, какие подходы приводят к лучшему усвоению материала студентами.
Преимущества перед готовыми решениями: Готовые решения обычно ориентированы на предоставление готовых методик, но не всегда включают аналитическую составляющую. Корпусы позволяют самостоятельно проводить исследования и делать выводы на основе собранной информации.
6. Изучение культурных особенностей
Корпуса содержат тексты из разных источников, включая литературу, СМИ и повседневные разговоры. Это дает возможность изучать культурные особенности через призму языка. Преподаватели могут использовать эти данные для обсуждения культурных различий и стереотипов со студентами.
Преимущества перед готовыми решениями: Готовые сервисы редко предоставляют такой широкий спектр контекстуальной информации. Корпусы позволяют глубже погружаться в культуру изучаемого языка.
7. Поддержка дистанционного обучения
В условиях дистанционного образования корпусы становятся незаменимыми инструментами. Они позволяют преподавателям предоставлять студентам доступ к большому количеству аутентичного материала, который можно использовать для самостоятельной работы и выполнения домашних заданий.
Преимущества перед готовыми решениями: Готовые платформы для дистанционного обучения часто ограничены в своих возможностях предоставления разнообразного контента. Корпусы обеспечивают гибкость и разнообразие учебных ресурсов.
Таким образом, корпусы обладают рядом преимуществ перед готовыми решениями, предоставляемыми сервисами и нейросетями. Они обеспечивают более глубокий и детальный подход к обучению, исследованию и оценке знаний, позволяя преподавателям адаптировать учебный процесс под конкретные потребности студентов.
Термины и сокращения
Основные термины для погружения в мир языковых корпусов:
— Языковой корпус — это собрание текстов, представленных в электронном формате, организованных таким образом, чтобы их можно было легко искать, анализировать и обрабатывать с помощью компьютерных программ. Корпусы могут быть специализированными (например, научные статьи), общими (разговорная речь) или даже многоязычными.
— Аннотированный корпус — это языковой корпус, в котором добавлены метки или теги, описывающие различные аспекты текста, такие как части речи, синтаксические структуры, семантическая информация и т. д. Аннотации помогают более точно анализировать тексты и выявлять закономерности.
— Лемматизация — процесс приведения слов к их базовой форме (лемме). Например, слова «ходил», «шёл» и «пошли» будут лемматизированы к слову «идти». Лемматизация помогает упростить обработку текста, так как уменьшает количество уникальных форм одного и того же слова.
— Лемма — это основная форма слова, которую используют для представления всех его грамматических форм. Леммы полезны при анализе текста, так как позволяют объединять различные формы одного и того же слова для упрощения обработки и поиска информации.
— Стемминг — упрощенная версия лемматизации, которая удаляет окончания слов без учета грамматических правил. Например, слово «ходил» может быть стеммировано просто как «ходи».
— Частотный словарь — список всех слов, встречающихся в корпусе, с указанием частоты их использования. Частотные словари полезны для выявления наиболее часто употребляемых слов и фраз.
— Коллокация — устойчивое сочетание двух или более слов, которое встречается чаще, чем можно было бы ожидать случайно. Коллокационные анализы позволяют выявить характерные выражения и идиомы в языке.
— Конкордансер — инструмент поиска и отображения контекста употребления определенного слова или фразы в тексте. Конкорданцы показывают все случаи использования интересующего нас элемента вместе с окружающими его словами.
— Конкорданс — это список всех случаев употребления определенного слова или фразы в тексте или корпусе текстов вместе с контекстом, в котором эти случаи встречаются. Конкорданс позволяет увидеть, как слово или фраза используется в разных частях текста, какие окружающие слова часто сопровождают его, и помогает лучше понять значение и употребление данного слова в контексте.
Пример конкорданса для слова «любовь» мог бы выглядеть следующим образом:
1. Я люблю своих родителей.
2. Любовь — это самое прекрасное чувство.
3. Он потерял любовь всей своей жизни.
Каждый случай употребления сопровождается предложением или фрагментом текста, где оно встречается, чтобы исследователь мог оценить контекст. Конкордансы часто используются в лингвистике, литературоведении и библеистике для изучения частоты употребления слов, их значений и связей с другими словами.
— Токенизация — процесс разделения текста на отдельные элементы (токены), такие как слова, знаки препинания, числа и другие символы. Токенизация является первым шагом в обработке текста для дальнейшего анализа.
— Токен — это минимальная значимая единица текста, выделяемая в процессе токенизации. Токеном может быть отдельное слово, символ, число или другая последовательность символов, имеющая самостоятельное значение в рамках контекста. Процесс токенизации заключается в разделении текста на такие единицы-токены.
Примеры токенов:
— Слово: «дом»
— Число: «123»
— Символ: "@»
— Специальный знак:».»
Токенизация важна в обработке естественного языка (NLP), так как она служит основой для дальнейших этапов анализа текста, таких как лемматизация, частеречное тегирование и синтаксический разбор.
— POS-тегирование (Part-of-Speech tagging) — процесс присвоения каждому токену соответствующей ему части речи (например, существительное, глагол, прилагательное).
— Семантический анализ — исследование значений слов и выражений в контексте. Семантический анализ позволяет лучше понять смысл текста и выявить скрытые связи между элементами.
— Корпусная лингвистика — область науки, изучающая использование языковых корпусов для анализа и описания языков. Корпусная лингвистика включает в себя разработку методов сбора, аннотирования и анализа данных.
— Лингводидактика — это наука, изучающая принципы и методы обучения языкам, включая родной и иностранные языки. Она находится на стыке лингвистики и дидактики (теории обучения) и исследует, как наиболее эффективно организовать процесс овладения языком, учитывая когнитивные, психологические и социальные факторы.
Основные направления лингводидактики включают:
Межкультурная коммуникация: Теоретическое и прикладное научное направление, находящееся на стыке лингвистики, культурологии, теории коммуникации и лингводидактики.
Методика преподавания языка: Разработка и адаптация методик обучения, учитывающих цели, уровень подготовки обучающихся и специфику языка.
Психолингвистика: Изучение психических процессов, связанных с овладением языком, таких как восприятие, запоминание и воспроизведение языковых единиц.
Социолингвистика: Анализ влияния социальных факторов на изучение и использование языка, включая культурные различия и межкультурную коммуникацию.
Тестология: Создание тестов и оценка уровня владения языком, включая разработку критериев и инструментов для измерения прогресса.
Информационные технологии в обучении: Использование компьютерных программ, приложений и онлайн-ресурсов для поддержки и усиления процесса обучения языкам.
Лингводидактика играет важную роль в разработке учебных программ, создании учебников и пособий, а также в подготовке учителей иностранных языков.
— Параллельный корпус — набор текстов на разных языках, где каждый текст имеет перевод на другой язык. Параллельные корпусы используются для изучения переводов, а также для разработки систем машинного перевода.
— Метаданные — дополнительная информация о текстах в корпусе, такая как авторство, дата создания, жанр, источник и т. д. Метаданные помогают лучше организовать и управлять корпусом.
— Кластеризация — метод группировки схожих элементов (например, документов или слов) на основе определенных критериев. Кластеризация используется для выявления структурных особенностей в данных.
— Текстовая разметка — процесс добавления тегов или других меток к тексту для обозначения различных аспектов, таких как структура документа, части речи, синтаксические отношения и т. д.
Эти термины являются основой для понимания работы с языковыми корпусами и их анализа. Освоение этих понятий поможет вам глубже погрузиться в изучение языка и использовать современные инструменты обработки текста.
Обзор НКРЯ — Национального корпуса русского языка
Национальный корпус русского языка (НКРЯ) — это электронное собрание текстов на русском языке, предназначенное для поиска, анализа и изучения различных аспектов современного русского языка. Основные возможности НКРЯ:
— Поиск конкретных слов и выражений в контексте.
— Анализ частотности слов и конструкций.
— Просмотр примеров употребления слов в разных стилях и жанрах.
— Доступ к историческим и современным текстам.
— Возможность фильтрации по временным периодам, авторам, жанрам и другим параметрам.
Подготовка учебных материалов с НКРЯ
Национальный корпус русского языка (НКРЯ) https://ruscorpora.ru/ — это ценный ресурс для создания и анализа различных учебных материалов по русскому языку. В этой инструкции мы рассмотрим основные шаги подготовки учебных материалов с использованием НКРЯ.
1. Регистрация и вход
Прежде чем начать работу с корпусом, необходимо зарегистрироваться на сайте ruscorpora.ru. После регистрации вы сможете войти под своим логином и паролем.
2. Поиск примеров
Для начала работы выберите вкладку «Поиск» в верхней части страницы. Здесь можно искать примеры использования слов, фраз или конструкций в русском языке.
Шаг 1: Выбор типа поиска
Выберите тип поиска:
— Лексический поиск — если вам нужно найти конкретные слова или фразы.
— Грамматический поиск — если вас интересует грамматическая структура предложений.
Шаг 2: Формулировка запроса
Введите слово или фразу, которую хотите найти. Вы можете использовать специальные символы для уточнения запроса:
* — заменяет любое количество символов.
? — заменяет один символ.
[] — позволяет задать диапазон значений.
Пример: Если вам нужны все формы глагола «читать», введите чит*.
Шаг 3: Настройка параметров поиска
После ввода запроса настройте параметры поиска:
Источники: Выберите источники, из которых будут браться примеры (газеты, художественная литература, научные тексты и т.д.).
Время: Укажите временной период, к которому относятся интересующие вас тексты.
Жанры: Отфильтруйте результаты по жанру текста (например, публицистика, поэзия).
Регион: Выберите регион, если вам интересны региональные особенности языка.
Шаг 4: Просмотр результатов
После выполнения поиска вы увидите список найденных примеров. Каждый пример сопровождается контекстом, что помогает лучше понять его использование.
3. Создание подборок
Если вам нужно собрать несколько примеров для учебного материала, вы можете создать подборку.
Шаг 1: Добавление примеров в подборку
Нажмите на значок корзины рядом с каждым примером, чтобы добавить его в подборку.
Шаг 2: Просмотр и редактирование подборки
Перейдите во вкладку «Подборки». Здесь вы найдете все добавленные вами примеры. Вы можете просматривать их, удалять ненужные и добавлять новые.
Шаг 3: Экспорт подборки
Когда подборка будет готова, вы можете экспортировать её в формате. txt,.xml или. html. Это удобно для дальнейшего использования в учебных материалах.
4. Анализ текстов
Кроме поиска конкретных слов и фраз, НКРЯ предоставляет инструменты для анализа текстов.
Шаг 1: Загрузка текста
Чтобы проанализировать текст, перейдите во вкладку «Анализ текста» и загрузите нужный файл.
Шаг 2: Выбор методов анализа
Выберите методы анализа:
— Частотный анализ — покажет частоту употребления слов в тексте.
— Морфологический разбор — проведет морфологический анализ каждого слова.
— Синтаксический разбор — проанализирует синтаксическую структуру предложений.
Шаг 3: Просмотр результатов
Результаты анализа будут представлены в виде таблиц и графиков. Их также можно экспортировать для дальнейшей обработки.
5. Использование готовых материалов
На сайте НКРЯ есть раздел «Материалы», где собраны готовые учебные материалы, созданные другими пользователями. Вы можете воспользоваться ими как основой для своих разработок.
Использование Национального корпуса русского языка значительно упрощает процесс создания качественных учебных материалов. Следуя этим шагам, вы сможете эффективно находить нужные примеры, создавать подборки и проводить глубокий анализ текстов.
Поиск готовых материалов, упражнений, заданий
Если вы хотите воспользоваться готовыми материалами, то на главной странице выбираем НКРЯ в школе:
Бесплатный фрагмент закончился.
Купите книгу, чтобы продолжить чтение.