c1.gif (954 bytes) "ЖУРНАЛ РАДИОЭЛЕКТРОНИКИ"  N 3, 2003

оглавление

дискуссия

c2.gif (954 bytes)

 

ПРОГРАММНЫЙ КОМПЛЕКС ОБРАБОТКИ МНОГОМЕРНЫХ ДАННЫХ С ПРИМЕНЕНИЕМ МЕТОДА ГЛАВНЫХ КОМПОНЕНТ И ГЕОИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ

 

 

Перемитина Т. О., e-mail: pto@ipc.tsc.ru

 

Институт химии нефти СО РАН

 

 

 

Получена 17 марта 2003 г.

 

        Для обработки и анализа многомерных данных широко применяются различные статистические пакеты. Однако применение статистических методов не позволяет включать в анализ пространственные свойства объектов. В связи с этим разработан программный комплекс анализа многомерных данных, основанный на сочетании метода главных компонент и метода пространственного анализа с применением геоинформационных систем.

 

 

        Одной из существенных особенностей природных объектов является наличие пространственных свойств. Для анализа таких объектов важен учет их расположения, их геометрическая форма (полигон, линия, точка) и их взаиморасположение с другими пространственными объектами исследования [1]. Как правило, природные объекты описываются большим числом характеристик, и представляются в виде многомерных  массивов. Для сокращения размерности и выявления значимых характеристик объектов исследования широко применяется метод главных компонент (МГК) [2]. Однако МГК не учитывает пространственные (топологические) свойства объектов. Пространственно - распределенные объекты удобно представлять в картографическом виде. Представление результатов анализа с использованием карт наглядно и достаточно информативно. Таким образом, объединение МГК и метода пространственного анализа (МПА) дает возможность исследовать не только характеристики объектов, но и их пространственные свойства.

 

Рис. 1 - Схемы комплексного анализа многомерных данных

 

 

        При проведении комплексного анализа по схеме а (рис. 1a) пространственно - распределенные на большой территории объекты исследования разбиваются на однородные группы по пространственному признаку. Проведение пространственного анализа данных предполагает разделение всех объектов на однородные группы с использованием средств геоинформатики и цифровых тематических карт. Каждая цифровая тематическая карта отражает определенные пространственные свойства объектов, поэтому наложение нескольких карт позволяет получать более точные результаты пространственного анализа. В результате наложения выявляются зоны перекрытия исследуемых областей, на основании которых можно производить разделение объектов на однородные группы. Разделение множества объектов на однородные группы (классы) облегчает дальнейший анализ методом главных компонент.

        Комплексный анализ по схеме b (рис. 1b)  предполагает  эвристическую классификацию объектов исследования в пространстве двух главных компонент, что позволяет разделить все объекты на  однородные группы по значениям их характеристик. Проведение пространственного анализа выявленных классов объектов средствами ГИС позволяет выявлять закономерности, связанные с пространственным взаиморасположением объектов.

 

 

Рис. 2 - Алгоритм  комплексного анализа

 

        Решение практических задач с применением традиционного алгоритма МГК показало, что возникает ряд задач, которые не могут быть решены традиционным применением МГК:

1.     предварительная подготовка массива данных к анализу (проверка данных на нормальность распределения, стандартизация или нормирование, восстановление пропущенных значений);

2.     формирование массивов данных в процессе обработки (построение новых массивов, разбиение массива на подмассивы);

3.     графическое отображение векторных нагрузок в пространстве двух главных компонент;

4.     графическое представление результатов анализа с отображением средних значений и доверительных интервалов для каждого класса объектов;

5.     учет пространственных свойств природных объектов исследования.

        В связи с этим был разработан алгоритм комплексного анализа (рис. 2), основанный на сочетании МГК-анализа и метода пространственного анализа с применением ГИС, включающий  пять дополнительных процедур, перечисленных выше. Алгоритм включает обе схемы проведения комплексного анализа, представленные на рис. 1.

 

        На основе алгоритма комплексного анализа пространственно - распределенных объектов разработан программный комплекс (рис. 3). Программный комплекс включает модуль интерфейсов, модуль пространственного анализа (ПА) данных, модуль анализа методом главных компонент и модуль графического отображения.

 

Рис. 3 -  Структура программного комплекса анализа  пространственно - распределенных  объектов

 

 

Модуль интерфейсов предназначен для осуществления взаимодействия между такими разнородными частями системы, как модуль пространственного анализа (ПО ГИС) и модуль МГК-анализа (среда Delphi 5). Модуль пространственного анализа данных включает: подготовку атрибутивной таблицы; отображение объектов на различных цифровых картах; выявление пространственных группирований объектов. Модуль МГК-анализа реализует алгоритм метода главных компонент. Модуль графического отображения включает: графическое отображение объектов исследования в пространстве двух главных компонент; графическое представление нагрузок на две главные компоненты; векторное представление нагрузок в пространстве двух главных компонент; графическое представление результатов анализа с отображением средних значений и доверительных интервалов.

 

        Рассмотрим практическое применение данного подхода. Проведен анализ данных о радиационном загрязнении окрестностей г. Томска в зоне воздействия крупного предприятия ядерного цикла по данным о содержании радиоактивных веществ в годичных кольцах деревьев, произрастающих в зоне воздействия объекта радиационного загрязнения. Целью анализа является выявление закономерностей радиоактивного загрязнения окружающей среды в зависимости от расстояния до источника загрязнения.

 

        Одним из важнейших факторов, формирующих радиационную обстановку Томской области, является Сибирский химический комбинат (СХК), расположенный в нескольких километрах от г. Томска - крупнейшее в России предприятие по производству оружейного плутония. Для анализа радиационной обстановки использовались данные дендрохроноиндикации [3] по удельной активности радиоуглерода, трития и цезия в годичных кольцах деревьев, произрастающих в 30-ти км зоне Сибирского химического комбината и за её пределами (рис. 4). Деревья из деревень Георгиевка и Наумовка включены в анализ вследствие того, что они оказались «накрытыми» радиоактивным облаком, выброшенным СХК во время известной производственной аварии 6 апреля 1993 г. [4].

 

 

Рис. 4 - Пространственное отображение объектов исследования

 

        Применение методики дендрохроноиндикации позволило получить ретроспективные данные приблизительно за 40-летний период до настоящего времени. В результате были получены многомерные массивы данных, содержащие информацию о радиоактивном загрязнении окружающей среды окрестностей г.Томска с 1955 по 1992 г.. Указанные данные были получены вед.н.с. НИИ ББ при ТГУ В.Д. Несветайло [5].

 

Рис. 5 - Активность трития в образцах древесины годичных колец деревьев

 

 

 

Рис. 6 - Средние значения и доверительные интервалы (b = 80 %)

активности трития в образцах древесины годичных колец деревьев

 

        Результаты анализа показали, что максимальную активность трития имеет сосна, выросшая в 5-км зоне от реакторов СХК. Меньшее количество трития накапливают деревья в районах деревень Георгиевка и Наумовка (за пределами 30-км зоны), а сосна на окраине пос. Аникино (контрольная точка за пределами 30-км зоны) имеет активность трития меньшую, чем в предыдущих случаях (рис. 5). На рис. 6 представлено графическое представление результатов анализа данных об активности трития в годичных кольцах деревьев с отображением средних значений и доверительных интервалов для каждого анализируемого дерева. Данное отображение показывает, что между значениями концентраций трития в годичных кольцах исследуемых деревьев имеется статистически значимое различие.

         Рассмотрим применение разработанного подхода для анализа природно-климатического состояния территории юго-востока Западно-Сибирской равнины. В качестве объекта исследования выбрана территория юга Западно-Сибирской низменности в границах трёх административных областей: Томской, Новосибирской и Омской (рис. 7). Центральную часть этой территории занимает Васюганская равнина. Для анализа климатических особенностей территории Васюганской равнины были использованы временные ряды среднегодовых значений температуры воздуха и количества атмосферных осадков за период 1955-1992 гг. (по 49 станциям), за период 1955-1985 гг. на 49 станциях Томской, Новосибирской и Омской областях. Сформированный для проведения исследований файл данных среднегодовых значений содержит 1 862 записи.

Рис. 7 - Расположение метеостанций на исследуемой территории

 

            В настоящей работе пространственный анализ с применением ГИС проводился наложением границ административных образований и условной границы территории Васюганской равнины на карту расположения метеостанций (рис. 7). Результатом чего стало разбиение метеостанций на четыре группы в зависимости от их расположения на территориях Васюганской равнины и трёх указанных выше административных областей.

 

 

Рис. 8 - Отображение доверительных интервалов и средних значений

классов объектов исследования в пространстве двух главных компонент

 

        Для анализа климатических особенностей территории Васюганской равнины по сравнению с примыкающими к ней территориями Омской, Томской и Новосибирской областей были использованы шесть параметров по 49 метеостанциям территории юго-востока Западно-Сибирской равнины:

1)     временные ряды среднегодовых значений температуры воздуха;

2)     временные ряды среднегодовых значений количества атмосферных осадков;

3)     максимальные годовые значения высоты снежного покрова;

4)     максимальные годовые значения плотность снежного покрова;

5)     максимальные годовые значения запаса воды в снежном покрове;

6)     значения их высоты станции над уровнем моря.

Результаты комплексного анализа данных с отображением средних значений и доверительных интервалов показали статистически значимое различие между выявленными четырьмя зонами (рис. 8).

 

Рис. 9 - Нагрузки на главные компоненты для территорий


       
При переходе из исходного многомерного пространства к двумерному пространству главных компонент вычисляются проекции характеристик объектов исследований на оси главных компонент. Эти проекции называются нагрузками на главные компоненты [6], по значениям которых судят о вкладе каждого параметра объекта исследования в картину распределения объектов в пространстве двух главных компонент. Исследование нагрузок позволяет выявить наиболее вариабельные параметры, или определить какой из параметров имеет наибольшее значение, а какой наименьшее.
        Анализ графиков нагрузок на главные компоненты (рис. 9) показывает, что исследуемая территория Васюганской равнины имеет выраженные особенности в климатическом состоянии по сравнению с сопредельными территориями. Использование разработанного подхода для анализа природно-климатических данных территории юго-востока Западной Сибири позволило выявить особенности в климатическом состоянии Васюганской равнины по сравнению с сопредельными территориями. На первую главную компоненту для Томской, Омской областей и Васюганской равнины наибольшее значение нагрузки имеет показатель 5 – запас воды в снежном покрове. Однако, хотя для Новосибирской области наибольший вклад даёт показатель 6 - высота станции над уровнем моря, запас воды в снежном покрове также оказывает существенное влияние. Поэтому этот показатель следует рассматривать как существенный для всех исследуемых территорий, однако их отличия в климатическом состоянии определяются различием значений показателя водозапаса в снежном покрове.
         Применение разработанного подхода в задачах анализа данных о радиационном загрязнении окрестностей г. Томска позволило выявить закономерности уровня концентрации радиоактивных веществ в зависимости от расстояния до источника загрязнения. В задачах анализа климатических особенностей территорий данный подход позволил исследовать пространственные особенности различных территорий, при этом анализ нагрузок переменных на главные компоненты дал возможность выявить наиболее значимые климатические характеристики для каждой исследуемой территории. Таким образом, разработанный подход позволяет проводить комплексный анализ широкого класса пространственно - распределенных природных объектов, выявлять зависимости и значимые характеристики исследуемых объектов.

 

ЛИТЕРАТУРА

1.                 Кошкарев А.В., Тикунов В.С. Геоинформатика. – М.: Картгеоцентр-Геодезиздат, 1993. – 213с.

2.                 Дубров А.М. Обработка статистических данных методом главных компонент. – М.: Статистика, 1978. – 135 с.

3.                 Несветайло В.Д. Дендрохроноиндикация как метод ретроспективного мониторинга. – В кн.: Проблемы исследования и преодоления экологической опасности в промышленном регионе – Кемерово, 1990. – с.100-109.

4.                 Израэль Ю. А., Артемов Е.М., Пахомов В.Г., Чириков В.Н. и др. Радиоактивное загрязнение местности в результате аварии на радиохимическом заводе Томске-7 // Метеорология и гидрология, 1993. – № 6. – с. 5-8.

5.                 Peremitina T. O., Nesvetajlo V.D., Polichtchouk Y.M. Radiochemical contamination analysis based on dendrochronoindication data // Proceeding of  the 4th Yugoslav Symposium Chemistry and Environment with international participation. – Beograd, 2001. - P. 428 – 430.

6.                 Андрукович П.Ф. Применение метода главных компонент в практических исследованиях. – М.: Изд-во МГУ, 1973 – вып. 36. – 124 с.

 

оглавление

дискуссия