Автоматизоване реферування
Автоматизоване реферування або квазіреферування — це виявлення в тексті первинного документа фрагментів, що містять заздалегідь заявлені змістові аспекти. Найвищого розвитку формалізація методів реферування набула з автоматизацією цього виду аналітико-синтетичної обробки документів. Необхідність реферування щораз більших обсягів документів і при цьому зменшення суб'єктивізму в наданні інформації зумовили впровадження в реферування електронних технологій. Методи автоматизованого реферуванняМетоди автоматизованого реферування базуються на можливості виявлення в тексті первинного документа фрагментів, що містять заздалегідь заявлені змістові аспекти, і на формуванні з них рефератів-екстрактів. Фрагменти тексту первинного документа вибирають за формальними ознаками, а саме за частотою вживання слів, обраних як змістові критерії. На жаль, такий підхід не завжди гарантує відбір з тексту найважливіших відомостей, тому такі реферати виконують переважно пошукову і комунікативну функції. Щоб відрізнити автоматичні реферати від інтелектуальних, перші часто називають квазірефератами, а процес автоматизованого реферування квазіреферуванням. Методи автоматизованого реферування поділяються на:
Характеристика методів автоматизованого реферуванняСуть статистичних методів, що засновані на статистичному аналізі текстів, — це методики російських вчених В. Аграєва, Б. Бородіна та В. Пурто. Перші двоє запропонували методику, згідно з якою вибрані з тексту речення виявляються пов'язаними між собою. Найбільш зв'язаними, а тому такими, що мають бути включені до реферату, вважаються речення, які містять найбільшу кількість однаково значущих слів. В. Пурто розробив метод оцінки та відбору речень за кількістю інформації, яку вони містять. У цьому випадку тексти підлягають статистичному аналізу для виявлення частоти вживання слів. Словами, що найчастіше вживаються у науково-технічній літературі, є терміни. Дослідник стверджує: чим важливіший термін, тим частіше він зустрічається у тексті, а відібрані речення міститимуть максимальну кількість цих термінів. Обсяг одержаного в такий спосіб реферату складає, як правило, не більше трьох речень, незалежно від обсягу первинного документа — полягає у відборі значущих речень відповідно до частоти вживання слів і розташування їх у реченні. Відбираючи речення до реферату, для кожного з них визначають значущість або змістову вагу. Чим більше слів, що часто трапляються в одному реченні, тим суттєвішу інформацію воно містить і тому має бути включене до реферату. Різні модифікації цього методу відрізняються підходом до відбору слів, що підлягають статистичному аналізу. Обсяг одержаного в такий спосіб реферату становить, як правило, не більше трьох речень, незалежно від обсягу первинного документа. Простота аналізу тексту першоджерела й однорідність отриманих рефератів забезпечили поширення статистичних методів автоматизованого реферування в багатьох країнах і їхню подальшу оптимізацію. Тобто у разі використання статистичного методу реферування обсяг і якість рефератів повністю залежать від статистичних характеристик тексту, тому речення, що містять найважливішу інформацію (наприклад, висновки у наукових статтях) можуть бути взагалі не виділені та не ввійти до реферату. Проте визначені недоліки певною мірою компенсуються завдяки простоті аналізу й однорідності рефератів, які готуються за допомогою ЕОМ. Позиційні методи вдосконалюють відбір найбільш значущих речень з текстів первинних документів з використанням складного математичного апарату.. Відбір здійснюється на засадах чотирьох взаємопов'язаних методів: натяку, ключових слів, заголовка, локалізації. Сутність методу натяку полягає у використанні під час відбору речень списку слів, в якому заздалегідь виділено слова з позитивною та негативною змістовою вагою, а також «нульові» (нейтральні) слова. При відборі враховуються тільки слова, що передають позитивну й негативну оцінку. При використанні методу ключових слів розглядаються слова, відібрані за частотним принципом та за цією ознакою визначені ключовими, що є аналогічним до запропонованого Г. Луном підходу. У методі заголовка головна роль відводиться словнику термінів, відібраних із заголовка та підзаголовків, які мають більшу «вагу», ніж слова з інших речень тексту. До реферату відбираються речення, де трапляються терміни, котрі наявні у словнику. Метод локалізації ґрунтується на припущенні, що найсуттєвіша інформація концентрується на самому початку або наприкінці певного уривка чи параграфа тексту. Зіставлення всіх чотирьох методів показало, що метод ключових слів забезпечує повноту відбиття змісту первинного документа на 15-40 %, метод заголовка — на 30-40 %, а спільне використання методів натяку, заголовка та локалізації — на 30-60 %. Подальшого розвитку цей підхід набув під час розробки індикативних методів реферування, порівняно з якими статистичні та позиційні методи відіграють допоміжну роль. Індикативні методи дають змогу на основі синтаксичного аналізу формалізувати виклад основного змісту первинного документа в рефераті телеграфного стилю. Синтаксичному аналізу може підлягати як увесь текст, так і його окремі фрагменти, що містять типові маркери. Показником для виділення значущих елементів правлять розділові знаки в середині речення. Обсяг одержаних рефератів становить у середньому до 35 % обсягу першоджерела [1, с.270-272]. Методика формалізованого реферуванняНазвані методи автоматизованого реферування постійно розвиваються й удосконалюються, але розробляють й інші. Так, на початку 80-х років було запропоновано методику формалізованого реферування з використанням маркерів для текстів з електроніки. За цією методикою процес автоматичного реферування зведено до двох основних операцій:
Позитивною рисою цієї методики вважають можливість робити постредагування не лише для фахівців певної галузі знання, а й для інших осіб, що володіють навичками редагування. Важливо також, що така методика при певному доопрацюванні дає змогу користувачу самостійно визначити потрібні йому аспекти змісту, здійснюючи так зване індивідуальне реферування, та за потреби одержувати відповідні реферативні огляди первинних документів [2]. Система автоматичного реферуванняРозробка і перспективи використання методів автоматизованого реферування тісно пов'язані з проблемами оцінювання якості машинних квазірефератів. Якість їх визначають на основі виявлення текстових збігів у рефератах, які підготувала людина, і автоматичних, а також шляхом порівняння результатів пошуку за текстами інтелектуальних і квазірефератів. Одним з класичних завдань комп'ютерної лінгвістики є побудова систем автоматичного реферування наукових, технічних, політичних, ділових текстів. Актуальність цього завдання значно зростає у зв'язку з появою на інформаційному ринку повнотекстових баз даних. Ці бази містять у вигляді документів не реферати, а тексти наукових статей. Якщо ж ідеться про іншомовні бази, то треба, очевидно, прагнути до побудови систем, які інтегрують 3 основні функції: пошук, переклад і реферування. Розробка системи автоматичного реферування є можливою на основі експериментально-семантичного дослідження міжфразової структури тексту, з наступною реалізацією ІС, що володіють спроможністю гіперсинтаксичного «розуміння» текстів [3, с. 45-50]. Система квазіреферуванняОпрацювання системи автоматичного реферування має чималий практичний інтерес. Це викликано не тільки регулярним збільшенням обсягу документальних потоків, але й таким важливим чинником, як запровадження в дію промислово-орієнтованих автоматизованих систем науково-технічної інформації з автоматичним індексуванням і систем машинного перекладу, а також повнотекстових баз даних. При цьому реферування, будучи одним із ключових процесів аналітично-синтетичної переробки текстів, поки що виконується вручну. У той же час, автоматичне реферування, з нашої точки зору, може бути справді ефективним тільки в тому випадку, якщо виконуються такі п'ять вимог: Принципи реалізації системи квазіреферуванняРозглянемо принципи, що розроблені під керівництвом автора системи квазіреферування.
Отже, на першому етапі реалізації принцип дії системи полягає у формуванні квазіреферата з автосемантичних речень тексту. Програмне забезпечення системи для ЄС ЕОМ включає головну програму й сім процедур. Головна програма виконує такі функції: Джерела
|
Portal di Ensiklopedia Dunia