Інформаційно-пошукова моваІнформаці́йно-пошуко́ва мо́ва (ІПМ) — штучна мова, призначена для вираження семантичних аспектів інформаційних джерел (частіше всього, документів) і запитів у формі, придатній для здійснення пошуку інформації. За своїми знаковими системами та правилами синтаксису ІПМ різняться [1]. Загальна характеристика інформаційно-пошукової мовиПроцес пошуку інформації передбачає взаємодію у режимі «запит — відповідь» користувача та інформаційно-пошукової системи через посередництво заздалегідь узгодженої ІПМ. Таким чином, передумовами для проведення інформаційного пошуку є:
Формалізація лексики і створення різних ІПМ викликано необхідністю усунення "надмірності" і "недостатності" природної мови для цілей інформаційного пошуку. Як і в природних мовах,в інформаційно-пошукових мовах використовується лексика, тобто свій словниковий склад. Лексичні одиниці (слова) ІПМ можуть бути простими (елементарними) або складними, тобто ІПМ може мати або не мати свої кошти словотворення. Основними елементами ІПМ є алфавіт, лексика і граматика. Алфавіт ІПМ - система знаків, що використовуються для запису слів і виразів ІПМ [2]. Призначення інформаційно-пошукової мовиМетою будь-якої ІПМ є надання користувачеві можливості пошуку інформації за відомими даними, або необхідною йому тематикою, вираженою спеціальними запитами. Процес складання запиту допускає багатоваріантність і є свого роду мистецтвом. Крім того, процедура пошуку має чітко визначену етапність: від визначення інформаційної потреби та області пошуку до аналізу результатів та вибору пертинентних об'єктів. На першому етапі визначається мета пошуку, його стратегія та область проведення (каталоги, бази даних). Наступна, оперативна частина пошукової процедури — це багатоваріантність підходів та рішень при формалізації запитів у процесі їх відпрацювання. Подальший етап — робота з документами, отриманими списком релевантних документів. Від вірного вибору переліку документів-першоджерел залежить результат роботи всіх трьох етапів пошукової процедури. У процесі пошуку необхідних документів ми орієнтуємось не на повні тексти документів, а на дані, що дозволяють отримати уявлення про їх зміст. Це можуть бути класифікаційні індекси, перелік бібліографічних даних, тематичні рубрики тощо. При переході від документа до його скороченого опису з метою використання для подальшого пошуку, ми ніби перекладаємо зміст документу на інформаційно-пошукову мову, тобто здійснюємо процес індексування інформації. Правила індексування добре погоджені між собою і забезпечують тісний взаємозв'язок багатьох технологічних і лінгвістичних рішень, прийнятих при побудові й використанні основних елементів системи в ряду «комплектування — програмне забезпечення — індексування інформації — процес проведення пошуку»[3] .Опис змісту документа за допомогою ІПМ — це пошуковий образ документу (ПОД), а опис змісту запиту — пошуковий образ запиту (ПОЗ). Саме від вміння правильно їх представити багато в чому залежить якість роботи всієї ІПС. Тому при розробці автоматизованих ІПС велику увагу необхідно приділяти вибору інформаційно-пошукових мов[4]. Нині[коли?] однією з проблем каталогізування є опис електронних ресурсів, тобто документів на машиночитних носіях, які все активніше запроваджуються в інформаційному просторі. Зараз[коли?] ця проблема виділилась у спеціалізовану галузь знань, що розвивається досить динамічно. Існує кілька методів та підходів, розробники яких намагаються врахувати всі особливості електронних видань. До низки найбільш значимих міжнародних розробок входять випущене ІФЛА «Міжнародний стандартний бібліографічний опис для електронних ресурсів» (англ. International Standard Bibliographic Description for Electronic Resources, ISBD (ER)[5]) та проект «Дублінське ядро» (англ. Dublin Core), ініціатором якого є OCLC (www.dublincore.org). Ці розробки демонструють протилежні точки зору на бібліографічний опис ресурсів Мережі. Документ ІФЛА служить для каталогізаторів, забезпечуючи їх інструментарієм для професійного обліку електронних матеріалів. Проект «Дублінське ядро», навпаки, призначений всім авторам сайтів: згідно з концепцією, кожний web-майстер має включати в структуру web-сторінки (область метаданих) визначений набір елементів, за допомогою яких описуються зміст та вихідні дані ресурсу. У Росії в галузі бібліографічного опису електронних видань також проведена значна робота. Своєрідним відображенням міжнародного стандарту ІФЛА став створений Російською державною бібліотекою та «Информрегистром» ГОСТ 7.82—2001 «Библиографическая запись. Библиографическое описание электронных ресурсов: Общие требования и правила составления». Він був прийнятий Міждержавною радою із стандартизації, метрології та сертифікації 22 травня 2001 р. Укладачі фактично взяли за основу ГОСТ 7.1—84 «Библиографическое описание документа. Общие требования и правила составления» і зробили спробу максимально наблизити опис Інтернет-ресурсів до опису традиційних документів, у результаті чого опис електронних видань набув вигляду, близького до бібліографічних записів на друковані видання. Слід відмітити, що даний стандарт українські бібліотекарі теж не можуть використовувати, оскільки Держстандартом України йому не надано чинності. Натомість бібліотекарі України вивчають і намагаються впровадити у бібліотечну практику практику Дублінський комплект даних. В Україні першою спробою надання інформації про новий стандарт метаданих, який сприяє ефективнішому пошуку інформаційних ресурсів в Інтернет, став матеріал, підготовлений ініціативною групою Української бібліотечної асоціації, представлений на сайті Публічної бібліотеки імені Лесі Українки[6]. У 1999 році працівниками Кіровоградської обласної наукової бібліотеки розпочато проект «МЕТАДАТА»[7], головною метою якого є вивчення стандартів метаданих з наступним використанням на сервері бібліотеки. З початку 2000 р. усі html-сторінки, що публікуються на сайті бібліотеки забезпечуються описом Dublin Core. Сайт містить[коли?] більш ніж 900 html-сторінок з метаданими Dublin Core[8]. Види та структура інформаційно-пошукових мовПо області або по сфері застосування інформаційно-пошукових мов можна виділити:
Розрізняють мови опису (декларативні мови), які в свою чергу поділяються на мови предкординатні (класифікаційні) і посткординатні(дескрипторні), а також процедурні мови - мови запитів і маніпулювання даними [9]. Інформаційно-пошукові мови поділяються на два основні типи:
До мов цього типу відносяться ієрархічні, алфавітно-предметні та фасетні класифікації. Наприклад, ББК та УДК.
Класифікаційні інформаційно-пошукові мови Інформаційно-пошукові каталоги, засновані на класифікації відомостей за певною предметної області, були першими системами інформаційного пошуку документів. Початкові підходи до класифікації тематики документів ґрунтувалися на формуванні списку предметних аналогів, розташованих в алфавітному порядку. Кожна предметна рубрика отримувала певний цифровий або буквенно-цифровий код. Зміст документа індексувалися перерахуванням кодів тих рубрик, які відображали теми документа. Це перечислювальна класифікація. Особливістю систем перечислювальної класифікації є можливість індексування документів будь-якою кількістю рубрик, що відображають зміст документ. Для здійснення пошуку необхідних документів за класифікатором визначаються коди, що цікавлять користувача рубрик і далі відбираються з сховища ті документи, які проіндексовані відповідними кодами. Відсутність систематизованих зв'язків і відносин між предметними рубриками є основним недоліком перечислювальної класифікації. При систематизованій класифікації список предметних рубриках будується як ієрархічна структура, у вигляді перевернутого дерева. Вся предметна область розбивається на ряд взаємовиключних (не перетинаються) рубрик. Кожна рубрика, у свою чергу, може включати кілька підрубрик. Таким чином, при систематизованій класифікації враховуються вже деякі семантичні основи предметної області, що виражаються в родовидових відносинах основних категорій, понять і класів.
Перечислювальний і ієрархічний підходи до класифікації використовуються в алфавітному порядку-предметних каталогах бібліотек. Недоліком як перечислювальної, так і ієрархічної класифікації є принципова неможливість заздалегідь перерахувати всі можливі теми документів [10]. Дескрипторні інформаційно-пошукові мови (ДІПМ) В основі побудови дескрипторних інформаційно-пошукових мов лежить принцип координатного індексування, який передбачає, що основний смисловий зміст документа може бути виражено списком ключових слів. До ключових слів відносяться так звані повнозначні слова - іменник, прикметник, дієслова, прислівники, числівники, займенники. Ключовими словами не можуть бути прийменники, сполучники, частки, вигуки. Основними елементами ДІПМ є:
Словники лексичних одиниць діляться на дві групи:
Як лексичних одиниць основних словників використовуються ключові слова, словосполучення та дескриптори [10]. ''Дескриптор'' - поняття, що означає групу еквівалентних або близьких за змістом ключових слів. Дескриптор - це ім'я класу синонімів.Дескриптори можуть використовувати код, слово або словосполучення [11]. Розробка дескрипторної мови фактично зводиться до розробки інформаційно-пошукового тезауруса (ІПТ). Тезаурус (від грец. «сховище», «скарбниця») у вузькому сенсі являє собою спеціальний словник-довідник, в якому перераховані ключові слова - дескриптори певної предметної області, вказані їхні синоніми, встановлені способи усунення синонімії, омонімії, полісемії, визначені родовидові і асоціативні зв дескрипторів. Найважливішими парадигматическими відносинами ІПТ є:
Узагальнена структура ІПТ включає як мінімум три складових: словарну частину, семантичну карту, керівництво по використанню. Словникова частина - алфавітний список дескрипторів з їх словниковими статтями. Семантична мапа - система тематичних класів дескрипторів, представлена у вигляді графічної схеми або таблиці. Керівництво по використанню ІПТ містить правила переказу ключових слів і словосполучень на ІПМ, правила лексикографічного контролю і редагування пошукового образу документа і пошукового образу запиту, а також правила ведення ІПТ. Відзнакою інформаційно-пошукових скарбниць від інформаційно-пошукових каталогів на основі предметної ієрархічної рубрикації є те, що в тезаурусах, крім класифікаційної схеми, присутні самі ключові слова та дескриптори, що об'єднані під назвою класів, рубрик і т. д. В каталогах присутні лише позначення (назви) класів.
В даний час відбувається розширення сфер застосування автоматичних скарбниць. При цьому тезауруси виступають складовою частиною сучасних систем підготовки текстів, здійснюючи лінгвістичну підтримку процесу підготовки і обробки текстів природною мовою [12]. Серед найперспективніших напрямків розвитку автоматичних скарбниць можна вказати наступні:
ІндексуванняПроцес створення пошукового образу документа для інформаційно-пошукової системи (тобто вираження основного змісту документу в термінах певної ІПМ) називається індексуванням. Існують методи автоматизованого індексування (наприклад, вебіндексування). До методів ручного і напівавтоматизованого індексування відносяться, наприклад, процеси бібліотечної каталогізації: створення бібліографічних описів, систематизація, предметизація тощо [14]. Бібліотечні інформаційно-пошукові мовиТрадиційні бібліотечні інформаційно-пошукові системи включають систему каталогів і картотек, бібліографічні покажчики та інші джерела вторинної інформації про бібліотечний фонд. Закономірно, різні інформаційно-пошукові системи мають різні ІПМ (як класифікаційного, так і дескрипторного типу). Так, ІПМ алфавітного каталогу є бібліографічний опис документа. Основною одиницею ІПМ систематичного каталогу є індекс відповідної бібліотечної класифікаційної системи (набір цифр, літер та/або інших символів, які умовно характеризують основні та додаткові ознаки певної галузі знання або проблеми). В середині індексів можливі різні варіанти групування документів. В основному, використовуються два основні варіанти групування: алфавітний або зворотно-хронологічний. ІПМ предметного каталогу складається з предметних рубрик. Завдяки впровадженню у бібліотечну діяльність інформаційних технологій сфера розробки ІПМ значно розширилася [15]. Див. такожПримітки
Література
|
Portal di Ensiklopedia Dunia