Якісні навчальні вибірки для керованої класифікації

ROI-separability-envi

Сучасне програмне забезпечення для обробки космічних знімків надає користувачеві багатий арсенал алгоритмів керованої класифікації, або класифікації з навчанням (більш детально можна прочитати тут). Це створює широкі можливості для автоматизації процесу дешифрування знімків. Натомість від користувача вимагається створити якісні навчальні вибірки. Саме від їхньої якості залежить точність керованої класифікації.

Теорія

У користувачів часто виникає закономірне бажання оцінити якість створених ними навчальних вибірок. Звісно, про якість навчальних вибірок свідчить якість результату класифікації. Але краще зробити перевірку до початку процедури класифікації. Найчастіше для вирішення цієї задачі використовуються три методи:

① візуальний аналіз гістограм яскравостей вибірок;

② візуальний аналіз розміщення вибірок у багатовимірному просторі спектральних ознак;

③ кількісна оцінка спектральної роздільності.

За допомогою аналізу гістограм яскравості досліджується їх форма і взаємне розташування відносно одне одного. Для якісних вибірок характерним є розподіл яскравостей, що нагадує нормальний. А ось багатомодальний розподіл з кількома піками на гістограмі вказує на те, що вибірка відповідає кільком різним класам об’єктів.

Бажано, аби гістограми різних вибірок не перетинались одна з одною. Якщо перетин має місце, то вибірки недостатньо “чисті”. Напевне, вони містять у собі пікселі з іншого класу об’єктів.

Аналіз гістограм має один суттєвий недолік. Для кожного каналу знімка гістограми необхідно порівнювати окремо. І що більше ми маємо каналів у знімку, то більше порівнянь необхідно провести. Звідси випливає потреба у способі, що дозволяє порівняти яскравості вибірок у кількох каналах одразу. Таким способом є аналіз багатовимірного простору спектральних ознак.

При аналізі багатовимірного простору спектральних ознак необхідно звернути увагу на взаємне розташування хмар значень. Що далі вони знаходяться одна від одної, то надійніше у процесі класифікації розділяються об’єкти, що їм відповідають. Якщо ж вони перетинаються, то можуть виникнути проблеми із розділенням класів. І що сильніше перетинаються хмари значень, то вища вірогідність помилок у процесі класифікації.

Перші два методи перевірки якості навчальних вибірок – це графічні методи. Тому вони не позбавлені суб’єктивності. Альтернатива їм – це кількісні методи оцінки спектральної роздільності об’єктів на космічних знімках. Вони засновані на розрахунку різних показників, що характеризують надійність розділення класів.

Практика

Розглянемо, як реалізовані способи оцінки якості навчальних вибірок в ENVI. ENVI (Environment for Visualizing Images) – це професійна програма для цифрової обробки найрізноманітніших космічних знімків. Вона забезпечує виконання всього циклу робіт, від найпростіших операцій до поглибленої тематичної обробки. ENVI дозволяє аналізувати панхроматичні, багатозональні, гіперспектральні, радарні знімки, а також працювати із цифровими моделями рельєфу. Перевагами програми є інтеграція із таким популярним ГІС ПЗ як ArcGIS і можливість самостійно дописувати додатки до програми мовою IDL. Найближчими конкурентами ENVI, подібними за функціоналом, є ERDAS Imagine і PCI Geomatics.

Візьмемо для прикладу найпростіший випадок, коли за космічним знімком ми досліджуємо два типи поверхні. Перший тип поверхні – це чорноземні ґрунти, а другий тип поверхні – це сірі лісові ґрунти. Зрозуміло, тут йдеться лише про поля без посівів, де ґрунт оголений і доступний для дистанційного спостереження. Ґрунт, що вкритий рослинністю, хоча і можна досліджувати за космічними знімками, проте лише опосередкованим чином.

Нам необхідно створити свою навчальну вибірку для кожного типу ґрунту. І створити їх треба достатньо якісними. Тобто, при керованій класифікації програма повинна виділити класи, що відповідають нашим ґрунтам. І зробити це вона має із мінімальними помилками.

Для вирішення нашої задачі ми будемо використовувати багатоспектральний космічний знімок супутника Landsat 5 TM (номер кадру (path/row) 177/025). Знімок зроблено 6 травня 2007 року. В цю пору значна частина полів ще не вкрита рослинністю, і ми можемо спостерігати на знімку ґрунти, що нас цікавлять. При відображенні знімку (рис.1) використана комбінація каналів 7:5:3. У ній для чорноземів характерним є жовто-коричневий колір карамельного відтінку. А сірі лісові ґрунти мають сірувато-блакитний колір.

На рисунку 1 показано фрагмент цього знімка, що охоплює територію на схід від Бєлгородського водосховища, між селищами міського типу Разумне і Маслова Пристань (Бєлгородська область). Читач може легко знайти її, навіть не знаючи координат території (за вказаними населеними пунктами). При цьому, знаходячись поблизу відносно великих населених пунктів, ми маємо справу із суцільним ареалом ріллі, що майже нічим не переривається (задачі, пов’язані із вивченням ґрунтів, зручно ілюструвати на подібних територіях). У цьому районі чорноземи лежать по сусідству із ареалом сірих лісових ґрунтів, і їх межу можна дуже легко побачити на знімку. Перші розташовані у західній частині ділянки, а другі – у східній. Чорним прямокутником на рисунку 1 виділене поле, у рамках якого добре видно межу між двома типами ґрунтів.

 

Satellite scene ROIs

Рисунок 1. Фрагмент космічного знімка (зліва) і нанесені на нього області інтересу (справа)

На знімок нанесено три вибірки (області інтересу) (рис. 1, справа). Червоним штрихуванням показана вибірка, що нанесена на поле із чорноземом. Зеленим штрихуванням показана вибірка, що нанесена на поле із сірими лісовими ґрунтами. Це приклади якісних вибірок, що відповідають виключно одному об’єкту (поверхні). Вибірка, яка показана синім штрихуванням, – це приклад поганої області інтересу. Вона містить одразу два типи ґрунтів.

Давайте спробуємо за допомогою різних методів підтвердити високу якість “зеленої” і “червоної” вибірок і низьку якість “синьою” вибірки.

Аналіз гістограм вибірок

Припустимо, ми маємо космічний знімок, який завантажений у програму ENVI. На нього нанесені області інтересу (в ENVI вони використовуються в якості навчальних вибірок), і вікно роботи з областями інтересу (рис. 2) у даний момент відкрите. Тоді для перегляду гістограми однієї вибірки необхідно виконати наступні операції.

① У менеджері шарів (Layer Manager) виділяємо область інтересу, що нас цікавить. У наведеному нижче прикладі вибрана “червона” область інтересу – вибірка, створена для чорнозему.

 

Region of Interest tool ENVI

Рисунок 2. Вікно роботи з областями інтересу

② У вікні Region of Interest (ROI) Tool натискаємо кнопку Compute Statistics, яка виглядає як калькулятор (рис. 2). З’явиться вікно ROI Statistics Result, яке містить статистичну інформацію про область інтересу в текстовому і графічному вигляді (рис. 3).

③ У вікні ROI Statistics Result натискаємо кнопку Select Plot і у випадаючому списку вибираємо гістограму для каналу, який нас цікавить. Результат цієї операції показаний на рисунку 3. Тут ми бачимо гістограму яскравості чорнозему у третьому каналі Landsat. Розподіл яскравості схожий на нормальний. Наявний лише один пік. Це свідчить про те, що “червона” вибірка якісна.

 

ROI histogram ENVI

Рисунок 3. Статистичні дані про вибрану область інтересу

Порівняння гістограм вибірок

Вивчивши лише форму гістограм яскравостей вибірок, ми не можемо розвіяти усі сумніви щодо якості вибірок. У двох вибірок гістограми яскравості можуть бути дуже хорошої форми, що подасть нам певні надії. Але при цьому гістограми можуть накладатися одна на одну. Таке буває, якщо ми нанесли обидві вибірки на один і той же клас об’єктів. Тому необхідно ще порівняти положення гістограм відносно одна одної. Для цього ми виконуємо наступні операції:

① У меню вікна Region of Interest (ROI) Tool вибираємо команду Options – Compute Statistics from ROIs…

② З’являється вікно Choose ROIs (рис. 4). У ньому відмічаємо потрібні нам області інтересу.

img4

Рисунок 4. Вікно вибору областей інтересу

③ З’являється вже знайоме нам вікно ROI Statistics Result. Але тепер у ньому є ще одна кнопка-список Stats for. За допомогою цього випадаючого списку можна обрати область інтересу для перегляду її статистики. Далі діємо так само, як у попередньому випадку (див. пункт 3 аналізу гістограми вибірок).

Таким чином, тут ми бачимо два альтернативних способи виконання тієї  самої операції. Це характерно для ENVI. Багато процедур обробки знімків у цій програмі можна запустити двома або навіть трьома альтернативними способами.

④ А тепер, власне, порівняння гістограм. У вікні ROI Statistics Results тиснемо кнопку Select Plot. Випадаючий список схожий на попередній випадок, але у ньому з’явилися нові команди. Обираємо команду Histogram for all ROIs і обираємо потрібний канал.

 

ROI statistics multiple histograms ENVI

Рисунок 5. Перегляд кількох гістограм на одному графіку

На рисунку 5 ми бачимо гістограми яскравості у третьому каналі Landsat для всіх трьох вибірок. Гістограми якісних вибірок (“червоної” і “зеленої”) одна з одною не перетинаються. Натомість гістограма “синьої” вибірки перетинається із двома іншими гістограмами. Окрім того, на синій гістограмі наявні два піки. Це відбулося через те, що синя вибірка захоплює пікселі обох ґрунтів, що дешифруються – чорнозема і сірого лісового ґрунту. Таким чином, “синю” вибірку краще не використовувати для дешифрування двох ґрунтів, які ми вивчаємо. Ця вибірка буде поганим еталоном для класифікації з навчанням.

Візуальний аналіз розміщення вибірок у багатовимірному  просторі спектральних ознак

① У меню вікна Region of Interest (ROI) Tool обираємо команду Options – Send ROIs to n-D Visualiser

② З’являється вікно Choose ROIs (рис. 4). У ньому відмічаємо потрібні нам області інтересу.

③ З’явиться два вікна (рис. 6). У вікні n-D Controls треба вибрати канали для візуалізації, клацаючи на відповідні квадрати. У прикладі, що наведений на рисунку 6, обрані третій, п’ятий і сьомий канали Landsat (в останнього на рисунку шостий номер).

У вікні n-D Visualizer відображено взаємне розміщення хмар значень наших виборок. Осі простору спектральних ознак (у даному випадку це тривимірний простір) показані білими прямими. Ці осі відповідають каналам знімка, що обрані у вікні n-D Controls.

 

 

n-D Visualizer ENVI n-D Controls ENVI

Рисунок 6. Відображення багатовимірного простору спектральних ознак в ENVI

На рисунку 6 (зліва) ми бачимо, що хмари значень “червоної” і “зеленої” вибірок не перетинаються. А от “синя” вибірка перетинається із двома іншими. Отже, підтверджується висновок про низьку якість “синьої” вибірки, отриманий при порівнянні гістограм яскравості.

Кількісна оцінка спектральної  роздільності

① В меню вікна Region of Interest (ROI) Tool обираємо команду Options – Compute ROI Separability…

② З’являється вікно Choose ROIs. У ньому відмічаємо потрібні нам області інтересу.

③ З’явиться вікно ROI Separability Report, що містить дані про спектральну роздільність (рис. 7).

В ENVI виконується розрахунок двох показників, що характеризують спектральну роздільність – відстані Джеффріса-Мацусіти і трансформованої дивергенції. Значення цих показників змінюються у проміжку від 0,0 до 2,0. Для добре розділюваних вибірок значення перевищує 1,9. Якщо значення менше 1,0, то, скоріше за все, ми маємо справу із вибірками, що нанесені на один і той самий клас поверхні.

ROI Separability Report

Рисунок 7. Звіт про спектральну роздільність областей інтересу

У цьому звіті (рис. 7) “червона” вибірка (чорнозем) позначена як Region #1.
“Зелена” вибірка (сірий лісовий ґрунт) позначений як Region #2.
“Синя” вибірка – Region #3.

У кінці звіту перераховані пари вибірок за їх роздільністю (відстань Джеффріса-Мацусіти) у порядку від гіршої до кращої. І тут результати співпадають із тим, що ми отримали графічними методами. “Червона” і “зелена” вибірки добре відокремлюються одна від одної, і погано – від “синьої” вибірки.