SSIM — це модель, заснована на сприйнятті, яка розглядає погіршення зображення як сприйняту зміну структурної інформації, а також включає важливі явища сприйняття, включаючи як маскування яскравості, так і терміни маскування контрасту. Відмінність від інших методів, таких як середньоквадратична похибка (англ.MSE) або PSNR (англ.peak signal-to-noise ratio), полягає в тому, що ці підходи оцінюють абсолютні похибки. Структурна інформація — це ідея, що пікселі мають сильні взаємозалежності, особливо коли вони просторово близькі. Ці залежності несуть важливу інформацію про структуру об'єктів у візуальній сцені. Маскування яскравості — це явище, при якому спотворення зображення (у цьому контексті) мають тенденцію бути менш помітними в яскравих областях, тоді як контрастне маскування — це явище, при якому спотворення стають менш помітними там, де є значна активність або «текстура» зображення.
Історія
Попередник SSIM називався Universal Quality Index (UQI) або Wang-Bovik Index, який був розроблений Чжоу Вангом та Аланом Бовіком[en] у 2001 році. Завдяки співпраці з Хамідом Шейхом та Ееро Сімончеллі[en] це переросло в поточну версію SSIM, яка була опублікована в квітні 2004 року в IEEE Transactions on Image Processing[en].[1] На додаток до визначення індексу якості SSIM, стаття надає загальний контекст для розробки та оцінки показників якості сприйняття, включаючи зв'язки з людською візуальною нейробіологією та сприйняттям, а також пряму перевірку індексу щодо оцінок людини.
Основна модель була розроблена в Лабораторії інженерії зображень і відео (англ.Laboratory for Image and Video Engineering, LIVE) Техаського університету в Остіні та в подальшому розроблена спільно з Лабораторією обчислювального зору (англ.Laboratory for Computational Vision, LCV) Нью-Йоркського університету. Подальші варіанти моделі були розроблені в Лабораторії зображень і візуальних обчислень в університеті Ватерлоо і були комерційно продані.
Згодом SSIM знайшов широке поширення в спільноті обробки зображень, а також у телевізійній індустрії та в соціальних мережах. Стаття SSIM 2004 року була процитована понад 20 000 разів за даними Google Scholar[2], що робить її однією з найбільш цитованих робіт у сферах обробки зображень та відеоінженерії. Він був удостоєний нагороди IEEE Signal Processing Society[en] Best Paper Award у 2009 році.[3] Він також отримав нагороду IEEE Signal Processing Society[en] Sustained Impact Award за 2016 рік, що свідчить про надзвичайно високий вплив статті протягом принаймні 10 років після її публікації. Через його високе поширення в телевізійній індустрії, кожен із авторів оригінальної статті SSIM отримав премію Primetime Engineering Emmy Award[en] у 2015 році від Телевізійної академії.
Алгоритм
Індекс SSIM розраховується для різних вікон зображення. Міра між двома вікнами і загального розміру є:[4]
Формула SSIM заснована на трьох порівняльних вимірюваннях між зразками і : яскравість (), контраст
() і структура (). Окремі функції порівняння:[4]крім наведених вище визначень:
Тоді SSIM є зваженою комбінацією цих порівняльних показників:
Якщо взяти ваги рівними 1, то формула буде зведега до наведеного вище виду.
Математичні властивості
SSIM задовольняє тотожності нерозрізнених і властивостей симетрії, але не відповідає нерівності трикутника чи невід'ємності, таким чином, не є функцією відстані. Однак за певних умов SSIM може бути перетворений на нормовану кореневу міру MSE, яка є функцією відстані.[5] Квадрат такої функції не є опуклим, а локально опуклим і квазіопуклим,[5] що робить SSIM можливою метою для оптимізації.
Застосування формули
Щоб оцінити якість зображення, ця формула зазвичай застосовується лише до яскравості[en], хоча вона також може застосовуватися до значень кольору (наприклад, RGB) або хроматичних (наприклад, значення YCbCr[en]). Отриманий індекс SSIM є десятковим значенням від 0 до 1, а значення 1 доступне лише у випадку двох ідентичних наборів даних, отже, вказує на повну структурну схожість. Значення 0 вказує на відсутність структурної подібності. Для зображення він зазвичай розраховується за допомогою ковзного гауссового вікна розміром 11x11 або блокового вікна розміром 8×8. Вікно можна зміщувати піксель за пікселем на зображенні, щоб створити карту якості зображення SSIM. У разі оцінки якості відео[6] автори пропонують використовувати лише підгрупу можливих вікон, щоб зменшити складність розрахунку.
Варіанти
Багатомасштабна SSIM
Більш просунута форма SSIM, яка називається Multiscale SSIM (MS-SSIM)[4], проводиться в декількох масштабах за допомогою процесу кількох етапів підвибірки, що нагадує багатомасштабну обробку в системі раннього бачення. Було показано, що він працює однаково добре або краще, ніж SSIM на різних суб'єктивних базах даних зображень і відео.[4][7][8]
Багатокомпонентний SSIM
Трикомпонентний SSIM (3-SSIM) це форма SSIM, яка враховує той факт, що людське око може бачити відмінності точніше на текстурованих або крайових областях, ніж на гладких областях.[9] Отримана метрика розраховується як середнє зважене значення SSIM для трьох категорій областей: країв, текстур і гладких областей. Запропонована зважування становить 0,5 для країв, 0,25 для текстурованих і гладких областей. Автори зазначають, що зважування 1/0/0 (ігноруючи будь-що, крім викривлень країв) призводить до результатів, ближчих до суб'єктивних оцінок. Це говорить про те, що краєві області відіграють домінуючу роль у сприйнятті якості зображення.
Автори 3-SSIM також розширили модель на чотирикомпонентний SSIM (4-SSIM). Типи країв далі поділяються на збережені та змінені ребра за статусом спотворення. Запропонована зважування становить 0,25 для всіх чотирьох компонентів.[10]
Структурна несхожість
Структурна несхожість (DSSIM) може бути отримана з SSIM, хоча вона не є функцією відстані, оскільки нерівність трикутника не обов'язково виконується.
Показники якості відео та тимчасові варіанти
Варто зазначити, що оригінальна версія SSIM була розроблена для вимірювання якості нерухомих зображень. Він не містить жодних параметрів, безпосередньо пов'язаних із тимчасовими ефектами людського сприйняття та людських суджень.[7] Звичайною практикою є обчислення середнього значення SSIM для всіх кадрів у відеопослідовності. Проте було розроблено кілька тимчасових варіантів SSIM.[11][6][12]
Комплексний вейвлет SSIM
Складний варіант вейвлет-перетворення SSIM (CW-SSIM) призначений для вирішення проблем масштабування, трансляції та повороту зображення. Замість того, щоб давати низькі оцінки зображенням з такими умовами, CW-SSIM використовує переваги складного вейвлет-перетворення, отже дає вищі оцінки зазначеним зображенням. CW-SSIM визначається наступним чином:Де — це комплексне вейвлет-перетворення сигналу і — комплексне вейвлет-перетворення для сигналу . Крім того, це невелике додатне число, яке використовується для забезпечення стабільності функції. В ідеалі вона повинна бути нульовою. Як і SSIM, CW-SSIM має максимальне значення 1. Максимальне значення 1 вказує на те, що два сигнали абсолютно схожі за структурою, тоді як значення 0 вказує на відсутність структурної подібності.[13]
SSIMPLUS
Індекс SSIMPLUS заснований на SSIM і є комерційно доступним інструментом.[14] Він розширює можливості SSIM, в основному для цільових відеопрограм. Він надає оцінки в діапазоні від 0 до 100, які лінійно відповідають суб'єктивним оцінкам людини. Він також дозволяє адаптувати оцінки до призначеного пристрою для перегляду, порівнюючи відео з різними роздільною здатністю та вмістом.
За словами його авторів, SSIMPLUS досягає більш високої точності та швидкості, ніж інші показники якості зображення та відео. Однак незалежне оцінювання SSIMPLUS не проводилося, оскільки сам алгоритм не є загальнодоступним.
cSSIM
Для подальшого дослідження стандартної дискретної SSIM з теоретичної точки зору було введено та досліджено неперервну SSIM (cSSIM)[15] в контексті інтерполяції радіальної базисної функції[en].
Інші прості модифікації
Метрика взаємної кореляції r* заснована на метриці дисперсії SSIM. Він визначається як r*(x, y) = σxy/σxσy
коли обидва стандартних відхилення дорівнюють нулю, і 0, коли лише один дорівнює нулю. Він знайшов застосування при аналізі реакції людини на фантоми з контрастними деталями.[16]
SSIM також використовувався для градієнта зображень, що робить його «G-SSIM». G-SSIM особливо корисний для розмитих зображень.[17]
Наведені вище модифікації можна комбінувати. Наприклад, 4-Gr* є комбінацією 4-SSIM, G-SSIM і r*. Він здатний відображати переваги рентгенологів до зображень набагато краще, ніж інші протестовані варіанти SSIM.[18]
Застосування
SSIM має програми для вирішення різноманітних проблем. Деякі приклади:
Стиснення зображення: під час стиснення зображень із втратами інформація навмисно відкидається, щоб зменшити простір для зберігання зображень і відео. MSE зазвичай використовується в таких схемах стиснення. За словами його авторів, використання SSIM замість MSE пропонується для отримання кращих результатів для розпакованих зображень.[13]
Відновлення зображення: відновлення зображення фокусується на вирішенні проблеми де є розмитим зображенням, яке слід відновити, це ядро розмиття, є адитивним шумом і це оригінальне зображення, яке ми хочемо відновити. Традиційним фільтром, який використовується для вирішення цієї проблеми, є фільтр Вінера. Однак конструкція фільтра Вінера заснована на MSE. За словами авторів алгоритму, використання варіанту SSIM, зокрема Stat-SSIM, дає кращі візуальні результати.[13]
Розпізнавання шаблонів: оскільки SSIM імітує аспекти людського сприйняття, його можна використовувати для розпізнавання шаблонів. Коли стикаються з такими проблемами, як масштабування зображення, переклад і поворот, автори алгоритму стверджують, що краще використовувати CW-SSIM,[19] який нечутливий до цих варіацій і може бути безпосередньо застосований шляхом зіставлення шаблонів без використання навчального зразка. Оскільки підходи до розпізнавання шаблонів, керовані даними, можуть забезпечити кращу продуктивність, коли велика кількість даних доступна для навчання, автори пропонують використовувати CW-SSIM в підходах, керованих даними.[19]
Порівняння продуктивності
Через його популярність SSIM часто порівнюють з іншими показниками, включаючи простіші показники, такі як MSE і PSNR, а також інші показники якості зображення та відео, що сприймаються. Неодноразово було показано, що SSIM значно перевершує MSE та його похідні за точністю, включаючи дослідження його власних авторів та інших.[7][20][21][22][23][24]
У статті Доссельмана і Янга стверджується, що продуктивність SSIM «набагато ближча до продуктивності MSE», ніж зазвичай припускається. Хоча вони не заперечують переваги SSIM над MSE, вони констатують аналітичну та функціональну залежність між двома показниками.[8] Згідно з їхніми дослідженнями, було виявлено, що SSIM корелює, а також методи на основі MSE для суб'єктивних баз даних, відмінних від баз даних від творців SSIM. Як приклад вони наводять Рейбмана і Пула, які виявили, що MSE випереджає SSIM у базі даних, що містить відео з втратою пакетів.[25] В іншій статті було виявлено аналітичний зв'язок між PSNR та SSIM.[26]
↑ абDosselmann, Richard; Yang, Xue Dong (6 листопада 2009). A comprehensive assessment of the structural similarity index. Signal, Image and Video Processing. 5 (1): 81—91. doi:10.1007/s11760-009-0144-1. ISSN1863-1703.
↑Li, Chaofeng; Bovik, Alan Conrad (1 січня 2010). Content-weighted video quality assessment using a three-component image model. Journal of Electronic Imaging. 19 (1): 011003–011003–9. Bibcode:2010JEI....19a1003L. doi:10.1117/1.3267087. ISSN1017-9909.
↑Li, Chaofeng; Bovik, Alan C. (August 2010). Content-partitioned structural similarity index for image quality assessment. Signal Processing: Image Communication. 25 (7): 517—526. doi:10.1016/j.image.2010.03.004.
↑Prieto, Gabriel; Guibelalde, Eduardo; Chevalier, Margarita; Turrero, Agustín (21 липня 2011). Use of the cross-correlation component of the multiscale structural similarity metric (R* metric) for the evaluation of medical images: R* metric for the evaluation of medical images. Medical Physics. 38 (8): 4512—4517. doi:10.1118/1.3605634.
↑Chen, Guan-hao; Yang, Chun-ling; Xie, Sheng-li (October 2006). Gradient-Based Structural Similarity for Image Quality Assessment. 2006 International Conference on Image Processing: 2929—2932. doi:10.1109/ICIP.2006.313132.
↑ абGao, Y.; Rehman, A.; Wang, Z. (September 2011). CW-SSIM based image classification(PDF). IEEE International Conference on Image Processing (ICIP11).
↑Gore, Akshay; Gupta, Savita (1 лютого 2015). Full reference image quality metrics for JPEG compressed images. AEU - International Journal of Electronics and Communications. 69 (2): 604—608. doi:10.1016/j.aeue.2014.09.002.