Hadoop Distributed FilesystemHadoop Distributed File System (HDFS) - це розподілена файлова система, яка забезпечує високошвидкісний доступ до даних і є одним з ключових компонентів платформи Hadoop. HDFS - це файлова система на основі Java, яка забезпечує масштабовність і надійне зберігання даних, призначена для розбиття великих кластерів на стандартних серверах. HDFS, MapReduce та YARN утворюють ядро Apache Hadoop. Концепції та структура HDFSHDFS є ієрархічною файловою системою. Таким чином, в HDFS є підтримка вкладення каталогів. У каталозі може розташовуватися нуль або більше файлів, а також будь-яка кількість підкаталогів. HDFS складається з наступних обов'язкових компонентів:
Hadoop містить єдиний вузол типу NameNode і довільну кількість вузлів типу DataNode. Основні концепції, закладені при проектуванні HDFS, і архітектурні рішення, застосовувані для реалізації цих концепцій:
Архітектурне рішення:
Архітектурні рішення:
Архітектурні рішення:
Продуктивність. У квітні 2008 року Hadoop побив світовий рекорд продуктивності в стандартизованном тесті продуктивності по сортуванню даних - 1 Тбайт був оброблений за 309 сек. на кластері з 910 вузлів. Архітектурні рішення:
Вузол іменВузол імен (NameNode) являє собою програмний код, що виконується, в загальному випадку, на виділеній машині екземпляра HDFS і відповідає за файлові операції, такі як відкриття і закриття файлів, створення і видалення каталогів. Крім того, NameNode відповідає за:
Hadoop містить єдиний вузол типу NameNode, що породжує вразливість всього кластера, викликану виходом вузол типу NameNode (одинична точка відмови). HDFS підтримує вторинний вузол імен - Secondary NameNode. Часто цей факт є причиною омани, що при відмові первинного вузла імен, його автоматично замінить вторинний вузол імен. Насправді підтримки автоматичного відновлення кластера після відмови первинного вузла NameNode у версії 1.0.0 немає. Вторинний вузол імен виконує такі функції:
Вузол данихВузол даних (DataNode), як і вузол NameNode, також являє собою програмний код, що виконується, як правило, на виділеній машині екземпляра HDFS і відповідає за операції рівня файлу, такі як: запис і читання даних, виконання команд створення, видалення і реплікації блоків , отримані від вузла NameNode. Крім того, вузол DataNode відповідає за:
Клієнти HDFSКлієнти являють собою програмних клієнтів, що працюють з файловою системою. У ролі клієнта може виступати будь-який додаток або користувач, який взаємодіє через спеціальний API з файловою системою HDFS. Для клієнта HDFS виглядає як звичайна файлова система - ієрархія каталогів з вкладеними в них підкаталогами і файлами. Як і у файлових системах загального призначення, клієнтові, за наявності достатніх прав, дозволені наступні операції: створення, видалення, перейменування, переміщення. Вищеназвані операції застосовувані до каталогів і файлів. Найбільш істотна відмінність роботи клієнта з файловою системою HDFS від роботи з файловою системою загального призначення - це те, що при створенні файлу клієнт може явно вказати розмір блоку файлу (за умовчанням 64 Мб) і кількість створюваних реплік (за замовчуванням значення дорівнює 3) . |
Portal di Ensiklopedia Dunia