Лейпцигская система правил глоссирования

Ле́йпцигские пра́вила глосси́рования (англ. Leipzig glossing rules) — предложенный для унифицированного использования при представлении языковых примеров в лингвистических работах набор правил глоссирования (поморфемной нотации). Включает как собственно правила оформления интерлинеарных глосс, так и список рекомендуемых сокращений (грамматических помет, «ярлыков»), используемых для обозначения грамматических категорий.

Лейпцигские правила глоссирования были разработаны совместно отделением лингвистики Института эволюционной антропологии общества Макса Планка и кафедрой лингвистики Лейпцигского университета в середине 2000-х годов. Они были созданы на фоне отсутствия какой-либо единой системы внутри научного лингвистического сообщества, и представляют собой инструмент, к которому может прибегнуть лингвист, столкнувшийся с необходимостью глоссирования текста. Поскольку к этому времени в лингвистике уже сложились некоторые частные договоренности относительно тех или иных аспектов глоссирования, основная задача данных правил — явно обозначить наиболее широко используемые конвенции.

Позднее, в начале 2010-х годов, Мартин Хаспельмат выступил с предложением использовать для лингвистических работ единый шаблон оформления с тем, чтобы преодолеть разнобой требований по оформлению, существующий в различных журналах и издательствах^[1]. Разработанные им правила (англ. The Generic Style Rules for Linguistics) были, в частности, приняты в придерживающемся идеологии open access лингвистическом издательстве Language Science Press^[2].

Использование

Интерлинеарное поморфемное глоссирование используется для передачи информации о значении и грамматических свойствах отдельных слов или их частей. В зависимости от задачи, стоящей перед автором, прибегающим к глоссированию, и от предполагаемого уровня подготовленности читателя, может использоваться разная степень детализации глосс. Настоящие правила допускают различную степень гибкости в их использовании и в некоторых случаях предлагают альтернативные варианты для реализации одной и той же задачи. Основное использование правил, предполагаемое авторами проекта, — разъяснение примеров, приводимых в научных публикациях.

Поскольку правила предлагают только инструментарий для передачи информации о морфемах, они могут оказаться недостаточными при разметке текстовых корпусов (напр. при необходимости размечать в тексте элементы, выходящие за рамки уровня морфологии, такие как слова или фразы).

Зачастую может существовать более одного подхода к анализу морфологических структур в языке. В связи с этим, правила не предлагают придерживаться того или иного подхода, а лишь предлагают возможные варианты обозначения описываемых элементов. Более того, полноценный морфологический анализ редко ограничивается одним лишь глоссированием, поэтому не стоит забывать, что его использование не может заменить собой анализ морфологической структуры, а лишь служит для сообщения читателю значимой информации о структуре текста, в дополнение к его литературному переводу.

При цитировании глоссированных текстов из внешних источников следует иметь в виду, что глоссы не являются собственно языковыми данными, а представляют собой метод анализа языковых данных. Соответственно, при цитировании примера из опубликованных ранее работ, автор может изменять способ глоссирования в соответствии с принятой им терминологией, собственным стилем или при использовании других методов анализа.

Общее представление примеров

Стандартом представления в современных лингвистических работах является приведение языкового примера в трёх «слоях» (строках):

транскрипция (либо орфографическая запись) на языке оригинала, с разделением слов на морфемы;
пословное глоссирование, то есть приписывание корню и каждой из некорневых морфем их значения либо сокращённого ярлыка;
перевод (литературный или буквальный).

В зависимости от задачи автора слоёв может быть и больше (например, отдельно орфография и транскрипция или две разновидности транскрипции; отдельно идиоматический и буквальный перевод и т.п.). Слой глоссирования может не приводиться для широко известных языков (например, основных западноевропейских языков, славянских языков в славистических работах и пр.).

Метаязыком перевода лексических значений (в строке глоссирования) и перевода всей фразы, как правило, является метаязык самой работы. Грамматические пометы (ярлыки), как правило, приводятся латинскими буквами, поскольку являются сокращениями латинских (реже, английских) слов.

Примеры, как правило, нумеруются. В случае, если в работе приводятся примеры из нескольких языков, перед примером указывается язык. При этом, в отличие от английского языка, в русском языке название языка не пишется с заглавной буквы (напр., язык дирбал, но не язык Дирбал).

Правила поморфемной нотации

Правило 1: Пословное выравнивание

Интерлинеарные глоссы для каждого отдельного слова анализируемого языка выравниваются по левой границе этого слова (обычно при помощи табуляции). Напр.:

(1)	Индонезийский
	Mereka	di	Jakarta	sekarang.
	они	в	Джакарта	сейчас
	'Они сейчас в Джакарте.'

Правило 2: Поморфемное соответствие

Явно выделяемые морфемы отделяются друг от друга дефисами как в анализируемом тексте, так и в соответствующих глоссах. Количество дефисов в анализируемом тексте и в глоссах должно совпадать. Напр.:

(2)	Лезгинский
	Gila	abur-u-n	ferma	hamišaluǧ	güǧüna	amuq’-da-č.
	сейчас	они-OBL-GEN	ферма	всегда	сзади	оставаться-FUT-NEG
	‘Теперь их ферма не будет всё время оставаться позади.’

Поскольку разделители (дефисы) и вертикальное выравнивание придают тексту неестественный графический облик, автор может при желании добавить в начале дополнительную строку, содержащую необработанный текст, или обратиться к Правилу 4 (в частности, 4C).

Границы клитик обозначаются знаком «равно» как в исходном тексте, так и в глоссах.

(3)	Западно-гренландский
	palasi=lu	niuirtur=lu
	священник=and	владелец_магазина=and
	'и священник, и владелец магазина'

Эпентетические сегменты, расположенные на морфемных границах следует присоединять к предшествующей либо к последующей морфеме. Выбор морфемы, к которой будет присоединяться сегмент, может определяться различными методами, которые с трудом поддаются обобщению, поэтому правила не предлагают рекомендаций по этому вопросу.

Правило 2A (расширенный вариант)

Если элементы связаны морфологически, но выделяются в отдельное слово по просодическому или фонологическому признаку, в качестве разделителя может использоваться сочетание пробела с дефисом (но только в исходном языке, а не внутри глоссы).

(4)	Чинский
	a-nii -láay
	3SG-смех-FUT
	'он(а) посмеётся'

Правило 3: Метки грамматических категорий

Морфемы, выражающие грамматическое значение, в основном передаются метками соответствующих грамматических категорий в форме сокращений, набранных заглавными буквами (чаще всего капителью).

Само собой, в некоторых случаях может потребоваться отступление от стандартных сокращений, например, если некоторая категория имеет в том или ином языке высокую частотность, то удобнее будет использовать более короткий вариант сокращения, например, CPL (вместо COMPL) для обозначения комплетива, PF (вместо PRF) для обозначения перфекта, и т. д. Если категория имеет очень низкую частотность в языке, то может быть оптимальным решением не сокращать ее обозначение вовсе.

Во многих случаях приемлемо использование как грамматических меток, так и слов языка-посредника. Таким образом, может быть выбран любой из двух вариантов глоссирования предложения (5) в зависимости от цели глоссирования.

(5)	Русский
	Мы	с	Марко	поеха-л-и	автобус-ом	в	Переделкино.
	1PL	COM	Марко	ехать-PST-PL	автобус-INS	ALL	Переделкино
	мы	с	Марко	ехать-PST-PL	автобус-посредством	в	Переделкино
	'Марко и я поехали в Переделкино на автобусе.'

Правило 4: Соответствие типа «один ко многим»

Когда единственному элементу исходного языка соответствует несколько элементов языка-посредника (лексических глосс или грамматических ярлыков), такие элементы разделяются точками. Напр.:

(6)	Немецкий
	unser-n	Väter-n
	наш-DAT.PL	отец.PL-DAT.PL
	'нашим отцам'

Определение порядка следования элементов в языке-посреднике может определяться различными методами, которые с трудом поддаются обобщению, поэтому правила не предлагают рекомендаций по этому вопросу.

Существуют различные причины, по которым между элементами исходного языка и элементами глосс возникает соответствие типа «один ко многим». Разделение элементов при помощи точки используется вне зависимости от этих причин. Если все же существует необходимость обозначить (разделить) различные причины, то следует обратиться к правилам 4А-4Е.

Правило 4A (расширенный вариант)

Если элемент исходного языка не может быть разделен на составляющие ни формально, ни семантически, но в языке-посреднике при этом отсутствует эквивалент, выражаемый одним словом, то вместо точки может использоваться знак подчеркивания.

(7)	Турецкий
	çık-mak
	выйти_наружу-INF
	'выйти наружу'

Правило 4B (расширенный вариант)

Если элемент исходного языка не может быть формально разделен на составляющие, но передает два или более явно выделяемых значения или грамматических характеристики, может использоваться точка с запятой. Напр.:

(8)	Французский
	aux	chevaux
	к;ART;PL	лошадь;PL
	'к лошадям'

Правило 4C (расширенный вариант)

Если элемент исходного языка может быть разделен и формально, и семантически, но автор не хочет демонстрировать формальное членение (так как оно несущественно и/или чтобы сохранить целостность текста), может использоваться двоеточие. Напр.:

(9)	Хеттский
	n=an	apedani	mehuni	essandu.
	CONN=его	это:DAT;SG	время:DAT;SG	есть: они: будут
	'Они отпразднуют его в это время.'

Правило 4D (расширенный вариант)

Если грамматический признак в исходном языке выражается морфонологическим изменением (аблаут, перегласовка, смена тона, и т. д.), для отделения соответствующей метки категории от остальной части глоссы используется обратная косая черта.

(10)	Руанда
	mú-kòrà
	SBJV\1PL-работать
	'чтобы мы работали'	(ср. индикатив mù-kòrà)

Правило 4E (расширенный вариант)

Если в исходном языке представлены лично-числовые аффиксы, одновременно выражающие агенсоподобный и пациенсоподобный аргументы переходного глагола, в глоссе может использоваться символ ‘>’ для обозначения того, что слева от него стоит агенсоподобный аргумент, а справа — пациенсоподобный.

(11)	Тяминтюнг
	nanggayan	guny-bi-yarluga?
	кто	2DU>3SG-FUT-колоть
	'Кого вы двое хотите заколоть?'

Правило 5: Ярлыки для категорий лица и числа

Показатели лица и числа не отделяются точкой, если они идут в порядке следования. Напр.:

(12)	Итальянский
	and-iamo
	идти-PRS.1PL	(не: идти-PRS.1.PL)
	'мы идём'

Правило 5A (расширенный вариант)

В некоторых языках показатели числа и рода встречаются очень часто, особенно в сочетании с указанием на лицо. В таких случаях некоторые авторы предпочитают использовать сокращения, набранные строчными буквами, не отделяя их точкой. При использовании этого варианта глоссирование будет выглядеть, как на второй строке в примере (13).

(13)	Белхаре
	ne-e	a-khim-chi	n-yuNNa
	DEM-LOC	1SG.POSS-дом-PL	3NSG-быть.NPST
	DEM-LOC	1sPOSS-дом-PL	3ns-быть.NPST
	'Здесь мои дома.'

Правило 6: Невыраженные компоненты

Если в глоссе содержится элемент, которому не соответствует явно выраженный элемент исходного текста («нулевая» морфема), то он заключается в квадратные скобки. Альтернатива — вместо невыраженного элемента добавляется в исходный текст знак «Ø», который отделяется дефисом, как и любой явно выраженный элемент.

(14)	Латинский
	puer	или	puer-Ø
	мальчик[NOM.SG]		мальчик-NOM.SG
	‘мальчик’		‘мальчик’

Правило 7: Ингерентные категории

Ингерентные, не имеющие явного выражения категории, такие как род в некоторых языках, могут быть переданы при глоссировании, но с заключением соответствующего элемента в круглые скобки. Напр.:

(15)	Гунзибский
	ož-di-g	xõxe	m-uq’e-r
	мальчик-OBL-AD	дерево(G4)	G4-сгибаться-PRET
	'Из-за мальчика дерево наклонилось.'
	(G4 = 4-й род, AD = адессив, PRET = претерит)

Правило 8: Двухэлементные морфемы

Грамматические или лексические элементы, состоящие из двух компонентов, которые трактуются как отдельные морфологические единицы (напр. двухкомпонентные основы типа na-xʔu̧ 'слышать' в языке лакота) могут передаваться двумя разными способами:

(i) Простым повторением глоссы:

(16)	Лакота
	na-wíčha-wa-xʔu̧
	слышать-3PL.UND-1SG.ACT-слышать
	'Я слышу их.'

(ii) Одна из двух частей может быть передана специальной меткой, напр. STEM:

(17)	Лакота
	na-wíčha-wa-xʔu
	слышать-3PL.UND-1SG.ACT-STEM
	'Я слышу их.'

Циркумфиксы, представляющие собой «двухкомпонентные аффиксы», могут передаваться с применением тех же правил, напр.:

(18)	Немецкий
	ge-seh-en	или	ge-seh-en
	PTCP-видеть-PTCP		PTCP-видеть-CIRC
	'увиденный'		'увиденный'

Правило 9: Инфиксы

Как инфиксы в исходном тексте, так и соответствующие им элементы глосс, заключаются в угловые скобки.

(19)	Тагальский
	b<um>ili	(основа: bili)
	<ACTFOC>покупать
	'покупать'

(20)	Латинский
	reli<n>qu-ere	(основа: reliqu-)
	оставлять<PRS>-INF
	'оставлять'

Если не составляет труда определить, является инфикс левосторонним, как в (19), или правосторонним, как в (20), это и определяет позицию глоссы, обозначающей инфикс, по отношению к глоссе, обозначающей лексическую основу. Если инфикс не является явно лево- или правосторонним, следует выработать отдельный принцип, по которому будут упорядочиваться элементы внутри глоссы.

Правило 10: Редупликация

Редупликация передается так же, как аффиксация, но для присоединения повторяющегося элемента к основе используется знак тильды, а не дефиса.

(21)	Иврит
	yerak~rak-im
	зелёный~ATT-M.PL
	'зеленоватые'

Сокращения грамматических ярлыков

Список сокращений, принятых при глоссировании^[англ.]

Литература

Lehmann, C. Directions for interlinear morphemic translations. Folia Linguistica №16. 1982. С. 199-224.
Croft, W. Typology and universals. 2nd ed. Cambridge: Cambridge University Press. 2003. С. xix-xxv.
Плунгян В.А. Общая морфология: Введение в проблематику. М. 2012. — С. 330-333
Винокурова, Н. И. Глоссирование как метод репрезентации текстов в якутском языке // Северо-Восточный гуманитарный вестник. — 2016. — № 4(17). — С. 85-99. — (В качестве приложений статья содержит полный перевод Правил на русский язык.)

Примечания

↑ The Generic Style Rules for Linguistics (неопр.). Дата обращения: 28 августа 2018. Архивировано 10 апреля 2018 года.
↑ Templates and tools (неопр.). Дата обращения: 28 августа 2018. Архивировано 29 августа 2018 года.