"ЖУРНАЛ РАДИОЭЛЕКТРОНИКИ" N 7, 2014

оглавление

УДК 004.422, 004.031

Интеграции научных данных на основе унифицированной модели Science Object Metadata

 

С. А. Жукова
Ижевский государственный технический университет им. М.Т.Калашникова

Статья получена 5 июня  2014 г.

 

Аннотация: Предложены методы описания научных данных с целью их интеграции и обеспечения доступности широкому научному сообществу для решения глобальных проблем. Базовыми положениями является стандартизация метаописаний научных данных и самих данных в составе результатов экспериментов, программ компьютерного моделирования, отчетов и публикаций. Рассматривается профиль научных данных на базе формирование нормативно-технического обеспечения, согласованного с международными и национальными стандартами и спецификациями в сфере информационно-коммуникационных технологий. В статье рассматривается понятие научные данные и их использование в составе глобального исследовательского пространства. Определены схемы описания научных данных и обеспечение доступа к ним на основе унифицированной модели Calculator Science Object Metadata. Модель разработана автором для интеграции научных данных компьютерного моделирования в составе открытого исследовательского пространства.

Ключевые слова: глобальные системы, интеграция, научные данные, стандарт, спецификация, матаданные, интероперабельность.

Abstract: Methods of the description of scientific data for the purpose of their integration and availability maintenance are offered wide scientific community for the decision of global problems. Base positions is standardization of metadescriptions of the scientific given and data as a part of results of experiments,  program  of computer modeling, reports and publications. The profile of scientific data on base formation of the normative and technical maintenance co-ordinated with the international both national standards and specifications of information-communication technologies. In article the concept scientific data and their use as a part of global research environment is considered. Schemes of the description of scientific data and providing of access to them on the basis of unified model Calculator Science Object Metadata are defined. The model is developed by the author for integration of scientific data of computer modeling as a part of open research environment.

Keywords: global systems, integration, scientific data, standard, specification, metadata, interoperability.

 

Введение

Современная наука в практике исследовательской деятельности широко применяет информационно-коммуникационные технологии, что способствует формированию больших массивов данных. Это данные, полученные с помощью приборов наблюдения: спутников, телескопов, сетей датчиков и т.д. Вместе с тем широко применяется компьютерное моделирование для проведения численных экспериментов на базе суперкомпьютеров и в распределенных средах. Таким образом, некоторые области научных исследований располагают огромными массивами данных, и эти данные растут в экспоненциальной прогрессии. Пригодность и совместное использование огромных массивов данных предоставляют с одной стороны новые возможности и методы исследований, и в то же самое время бросают вызовы в создании новых инструментов управления научными данными. Научное сообщество нуждается в формировании новых подходов в использовании информационных технологий в исследованиях, о чем было указано в 7-ой Программе  Европейской Комиссии GRDI 2020 [1]. В соответствии с программой предложена концепция экосистемы науки, которая предполагает формирование глобальной инфраструктуры исследовательских данных, способной связывать компоненты распределенной национальной или международной экосистемы, преодолевая язык, политику, методологию и социальные барьеры. Глобальная инфраструктура исследовательских данных, прежде всего, должна обеспечивать совместное использование данных и новые сервисы управления ими, независимо от их места нахождения, источника, принадлежности к конкретной научной дисциплине и научному сообществу [2].

Способность к совместному использованию научных данных и возможности их обработки различными приложениями характеризует их как интероперабельные данные. Проблема интероперабельности научных данных рассматривается в разных работах в соответствии с профилем научной области. Предлагаются методы описания научных данных и способы их интеграции для медицины [3], химии [4-5], космоса [6]. Предложены модели формирования интероперабельных пространств, разработанных в рамках исследовательских проектов при поддержки РФФИ и Министерства Образования РФ [8-10].

Однако, несмотря на наличие частных решений интеграции данных для отдельных областей науки, все еще сохраняются проблемы и сложности их реализации, которые отмечаются в работах  российских ученых [8], так и за рубежом [11]:

- технические, связанные с реализацией механизмов интеграции гетерогенных данных;

- организационные, связанные с трудностями заключения соглашений между заинтересованными лицами в формировании и совместном использовании данных.

Решением перечисленных проблем является разработка профиля научных данных, который представляет собой совокупность соглашений и стандартов на методы их описания и обеспечения доступа к ним. Это требует разработки соответствующего нормативно-технического обеспечения.

В работе предлагается модель интеграции научных данных в области компьютерного моделирования динамических систем. Широкое применение компьютерного моделирования определяется тем, что многие объекты (или проблемы, относящиеся к этим объектам) непосредственно исследовать или невозможно, или эти исследования требует значительных временных и материальных  затрат. Описание объектов заключается в моделировании их конструктивных, технологических, эксплуатационных и других характерных параметров. Таким образом, исследование реальных систем сводится к изучению математических моделей, совершенствование и развитие которых определяются анализом экспериментальных и теоретических результатов при их сопоставлении, [12].

Автором разработаны модели и методы унифицированного описания форматов экспериментальных данных численных экспериментов, форматов обмена и форматов метаописаний, которые образуют профиль научных данных. Это позволит формировать глобальное исследовательское пространство компьютерного моделирования на основе технологии построения открытых систем. Работа выполнялась Ижевском государственном техническом университете имени М.Т.Калашникова в рамках Федеральной целевой программы «Научные и научно-педагогические кадры инновационной России» на 2009-2013 по теме «Разработка модели автоматизированной системы интеграции открытых виртуальных лабораторных комплексов». Задачей проекта является создание открытой информационной среды для размещения виртуальных лабораторных комплексов, включая накопление, хранение, обработку и защиту сведений, тестирование свойств открытости, настройку интерфейса взаимодействия с пользователем и обеспечение доступа к сервисам виртуальных лабораторных комплексов [13].

 

1.     Структура научных данных

Под исследовательским пространством  (рисунок 1) понимается единая среда, моделирующая процессы взаимодействия исследователя, объекта исследования, численного эксперимента и программно-аппаратного комплекса [14].

 



Рис 1. Структура исследовательского пространства

Основными структурными элементами пространства являются ресурсы:

интеллектуальные (математические модели объектов и методы их исследования, результаты численных экспериментов над объектом, отчеты и публикации),

алгоритмические (программы и программные комплексы, осуществляющие вычислительный эксперимент),

организационные (правила и инструкции выполнения исследования, нормативная документация).

аппаратные (программно-аппаратные комплексы, необходимые для выполнения экспериментов).

Таким образом, под научными данными исследовательского пространства компьютерного моделирования будем понимать следующие информационные элементы:

-  результаты численных экспериментов,

- научные публикации (отчеты, монографии, статьи),

- компьютерные модели.

Формирование научных данных и доступ к ним осуществляется через сервисы технологической платформы [15], которая включает компоненты вычислительной информационно-телекоммуникационной инфраструктуры, приложения, ресурсы, документацию и пользователей.

 

2.     Модель интеграции

Базовым принципом интеграция научных данных является унификация их описаний (метаданные), представления и хранения (форматы данных), а доступ к ним выполняется на базе стандартных механизмов (сервисов) (рисунок 2).

Рис 2. Модель интеграции научных данных

В соответствии с приведенной на рисунке моделью определены объекты стандартизации и сформирован профиль научных данных Science Object Metadata (SOM), который включает описание интеллектуальных ресурсов (данные эксперимента), информационных ресурсов (публикации, монографии, отчеты), алгоритмических ресурсов (программы ЭВМ). На рисунке 3 приведена детализация части профиля для алгоритмического ресурса. На схеме отражены состав нормативно-технических документов и их зависимости, описывающие следующие объекты стандартизации: метаданные АР, правила упаковки АР, методы взаимодействия с АР, т.е. API.  Для описания структуры профиля используется графическая нотация, основанная на обозначениях диаграмм пакетов UML, предложенная в работе [16].

 

 

Рис. 3. Структура профиля алгоритмического ресурса.

В соответствии с приведенной схемой выделены следующие категории спецификаций:

1)                    внешние спецификации (на схеме обозначены О), которые, по сути, являются базовыми стандартами для множества профилей формирования метаданных, например профиль образовательных ресурсов, профиль библиографических ресурсов и используются для описания типовых метаданных. К таким элементам данных относятся сведения о физических лицах, организациях, сведения об адресах и т.д.

2)                    внутренние спецификации (на схеме обозначены P) описывают объекты стандартизации с учетом их специфики. К таким объектам относятся метаданные о входных и выходных параметрах, структура API АР и структура упаковки АР.

Анализ существующих стандартов и спецификаций, показал отсутствие единых соглашений в формировании форматов обмена данными о численных экспериментах, а также  единых требований к формированию метаданных о программах компьютерного моделирования. К примеру, язык MathML [22] ориентирован на представление документов, в которых используются математические формулы. Это позволяет обмениваться научными документами между приложениями и воспроизводить их в популярных браузерах. Но в нем отсутствуют конструкции описания метаданных. Автором разработаны регламенты на формирование алгоритмического  ресурса, которые входят в состав профиля научных данных.

 

3.     Модель алгоритмического ресурса.

Формирование алгоритмического ресурса выполняется на базе стандартов консорциума LMS [17-18] и RUS_LOM [16], которые дополняются спецификациями и регламентами, учитывающие специфику программного продукта компьютерного моделирования. В соответствии с моделью SOM алгоритмический ресурс формируется в виде дистрибутивного пакета и сопровождается метаописанием. Модель описывает порядок формирования дистрибутивного пакета, имеющий следующую структуру (рисунок 4).

 

Рис. 4. Структура дистрибутивного пакета

Содержание дистрибутивного пакета включает компьютерную модель, которая является программой ЭВМ, и документацию по ее использованию. Манифест включает метаописание сведений о ресурсе и метаописание входных и выходных параметров.

 

Таблица 1. Метаописание сведений о ресурсе

Общая информация

(General)

Технические характеристики

(Technical)

Научные характеристики

(Science)

права интеллектуальной собственности на (Rights)

 

Классификационные признаки

(Classification)

Идентификатор

(identifier)

Размер (Size)

Тип модели (typeModel)

Документ на права интеллектуальной деятельности (RightDoc)

Назначение классификации  (Purpose)

Заголовок

(title)

Формат (format)

Тип структуры (naimStruc)

Условия доступа (Access Rights)

Источник (Source)

Описание (description)

Место расположения (location)

Тип процесса (naimProcess)

 

Идентификатор  (Id )

Ключевые слова (keyword)

Требования к платформе (requirement)

Наименование модели (naimMethod)

 

Текстовое наименование (Entry)

Условия распространения (Contribute)

Доступ (Access Type)

Наименование объекта исследования (Name Object)

 

Описание (Description)

 

Модель метаописаний сведений о ресурсе состоит из совокупности элементов данных, образующих иерархическую структуру. На верхнем уровне иерархии информационной модели представлены 5 контейнеров (таблица 1):

      общие сведения об АР (General);

      технические характеристики АР (Technical);

      научные характеристики АР (Science);

      права интеллектуальной собственности на (Rights) – сведения о правах интеллектуальной собственности на программу ЭВМ и связанных с ними условиях его использования;

      классификационные признаки (Classification) – классификационные признаки АР в рамках различных классификаторов научных данных.

Порядок описания и XML представления элементов регламентируется спецификациями LMS [17-18] для контейнеров General, Technical, Classification. Для контейнера Science разработан документ XML – привязка к о писанию метаданных научных характеристик, для контейнера Rights используется спецификация RUS_LOM, используемая для описания образовательных ресурсов в РФ [19].

 


 

Рис. 5. Пример XML представления экземпляра метаданных алгоритмического ресурса «Эквиаффинные преобразования вращения твердого тела»

 

В качестве средства описания  информационной модели выбран язык разметки XML, разработанный консорциумом W3 [20]. Структура XML файла является иерархической вертикальной, в которой часть элементов объединены в группы, что позволяет их повторно использовать во внешних схемах, например в описание входных и выходных параметров, описания результатов экспериментов. На рисунке 5 приведен пример экземпляра XML-файла метаописания алгоритмического ресурса «Эквиаффинные преобразования вращения твердого тела», свидетельство на программу ЭВМ, №2013617637, который  предназначен для численного интегрирования уравнений свободного вращения твердого тела.  Предметом исследования является движение твердого тела на основе эквиаффинных преобразований.  Алгоритмы интегрирования, построенные  на основе таких преобразований, устойчивы к накоплению погрешности счета и содержат минимальное количество арифметических операций.  [21].

Метаописание входных и выходных параметров представляется в виде списка параметров, что позволяет выполнять эксперимент на базе технологической платформы [15], используя унифицированный API в профиле научных данных. В модели представлены три контейнера (таблица 2):

       входные параметры (Input Parameters);

       выходные параметры (Output Parameters);

       дополнительные параметры (Add Parameters).

 

Таблица 2. Метаописание входных и выходных данных

Входные параметры

Выходные параметры

Дополнительные параметры

Name

Name

Name

Obozn

Obozn

Obozn

DefaultValue

description

description

Description

 

 

 

На рисунке 6 приведен пример описания входных и выходных параметров программы «Эквиаффинные преобразования вращения твердого тела».

 

 

Рис. 6. Пример XML представления файла экземпляра метаданных входных и выходных параметров программы «Эквиаффинные преобразования вращения твердого тела»

 

4.     Структура файла обмена результатами экспериментов  ExFED

Для выгрузки данных разработан формат обмена результатами эксперимента External Format Experiments Data (ExFED). Для численных экспериментов характерен расчет параметров на множестве итераций, количество которых может достигать несколько сотен тысяч. Основное назначение этого регламента - способность обрабатывать результаты экспериментов внешними приложениями, например математическими и статистическими пакетами, пакетами обработки графических данных. Поэтому в качестве базового стандарта взят язык описания математических текстов MathML [23], который поддерживается многими математическими пакетами.

Структура формата External Format Experiments Data включает следующие контейнеры (таблица 3):

       начальные условия (Begin),

       выходные параметры (Output Parameters),

       общие сведения об эксперименте (Experiment),

       общие сведения об алгоритмическом ресурсе (General).

 

Таблица 3. Структура формата ExFDS

Начальные условия

Выходные параметры

Общие сведения об эксперименте

общие сведения об алгоритмическом ресурсе

mtext

mtext

Author

соответствует схеме метаданных алгоритмического ресурса, раздел General

mi

mi

Id_Exp

mn

mn

description

 

На рисунке 7 приведен пример XML представления экземпляра выходных параметров и их значений, полученных при выполнении  программы «Эквиаффинные преобразования вращения твердого тела».

 

Рис. 7.  Пример XML представления экземпляра выходных параметров и их значений в формате External Format Experiments Data.

 

Следует отметить, что в  начале файла записываются имена параметров в соответствии со схемой метаописаний  SOM.  Значения выходных параметров формируются в виде матрицы M, в которой  mi,j – это значение i-го параметра на  j – м шаге интегрирования. Каждой строке в таблице соответствует множество значений выходных параметров на определенной итерации.

Приведенная структура файла позволит унифицировать обработку экспериментов единообразным способом во внешних приложениях с указанием ссылки на глобальный URL адрес алгоритмического ресурса и эксперимента.

 

Выводы

Модель интеграции  на основе стандартизации позволяет формировать гомогенные научные данные, однородные по своему формату, что создает эффективные условия осуществления научно-исследовательской деятельности:

 предоставляется возможность совместного использования данных при выполнении коллективной работы научными организациями;

унификация формата выгрузки данных предоставляет возможность использовать широкий диапазон инструментов анализа (статистика, научная визуализация), при условии соблюдения соглашений по формату;

использование глобальной уникальной идентификации экспериментов позволяет ссылаться на них в электронных публикациях, что является перспективным направлением обеспечения открытости научных данных.

Стандартизации форматов научных данных и интерфейсов доступа к ним обеспечивает интероперабельность исследовательских пространств и способствует развитию качественно новых методов исследования и решения глобальных задач, стоящих перед мировым сообществом.

 

Литература

1.    Global Research Data Infrastructures: The GRDI2020 Vision The GRDI2020 Consortium, [электронный ресурс]. URL: http://www.grdi2020.eu/StaticPage/About.aspx

2.    Bietz, M. J., Wiggins, A., Handel, M., & Aragon, C. Data-intensive collaboration in science and engineering. Proceedings of the ACM 2012 conference on Computer Supported Cooperative Work Companion (pp. 3-4). ACM.

3.    Catalina Martínez Costa, Marcos Menárguez-Tortosa, Jesualdo Tomás Fernández-Breis Clinical data interoperability based on archetype transformation, Journal of Biomedical Informatics Volume 44, Issue 5, October 2011, Pages 869–880

4.    Stephen E. Stein, Stephen R. Heller, and Dmitrii Tchekhovski. An Open Standard for Chemical Structure Representation - The IUPAC Chemical Identifier, 2003 Nimes International Chemical Information Conference Proceedings, pages 131-143 (2003).

5.    CellML 1.1 XML Schema / [электронный ресурс]. URL: http://www.cellml.org/cellml/cellml_1_1.xsd

6.     NASA/Science Office of Standards and Technology (NOST). Digital Curation Resources. Standards in Use at NSSD [электронный ресурс]. URL: http://nssdc.gsfc.nasa.gov/nost/curation.html

7.    Y. Gulyaev, A. Oleinikov. E. Zhuravliov. Standardization of information technologies in fundamental researches (Standards of information technologies, from nano till grid), International Journal of IT Standards & Standardization Research, №7 (2), 64-81, July-December 2009.

8.    В.К. Батоврин, Ю.В. Гуляев, А.Я. Олейников Обеспечение интероперабельности –основная тенденция в развитии открытых систем. Информационные технологии и вычислительные системы, №5, 2009.

9.    Журавлев Е.Е., Олейников А.Я., Гуляев Ю.В. Методология стандартизации для обеспечения интероперабельности информационных систем широкого класса. // Журнал Радиоэлектроники: электронный журнал. 2012.  № 3. URL: http://jre.cplire.ru/jre/mar12/2/text.pdf

10. Ефимов И.Н., Жевнерчук Д.В., Козлова С.Ж., Николаев А.В., Открытые виртуальные исследовательские пространства. Технология построения. -Нижний Новгород: Издательство Нижегородского Государственного университета  им.Н.И.Лобачевского, 2008.-203с.

11. Pasquale Paganom, GRDI2020 Data Interoperability [электронный ресурс]. URL: http://www.grdi2020.eu/Pages/SelectedDocument.aspx?id_documento=c4fb6ab0-d83b-49ae-ab14-6d8030fc2422

12.  Ефимов И.Н., Морозов Е.А. Компьютерное моделирование физических процессов. Учебное пособие. Ижевск: издательство «Ассоциация по методологическому обеспечению деловой активности «Митра», 2012-134С.

13.  Научно-образовательный портал поддержки исследовательской деятельности с применением инструментов компьютерного моделирования – открытых виртуальных лабораторных комплексов, [электронный ресурс]. URL: http://asovlc.ru/main/about/

14. Н.Ефимов, С.Ж.Козлова, С.А. Жукова Концептуальные основы интеграции открытых виртуальных лабораторных комплексов, Вестник ИжГТУ, № 3, 2011.-С.192-198

15.  Жукова С.А., Построение архитектуры технологической платформы открытых исследовательских пространств. //Журнал радиоэлектроники: электронный журнал. 2013. N5. URL: http://jre.cplire.ru/jre/may13/9/text.pdf

16. Башмаков А.И., Старых В.А. Принципы и технологические основы создания открытых информационно-образовательных сред. ФГУ ГНИИ ИТТ «Информика». – М.: БИНОМ. Лаборатория знаний, 2010.-719с, ил.

17.  IEEE Std 1484.12.1-2002 IEEE Standard for Learning Technology – Learning Object Metadata standard. – New York: IEEE, 2002

18. IEEE Std 1484.12.3-2005 IEEE Standard for Learning Technology – Extensibe Markup Language (XML) Schema Definition Language Binding for Learning Object Metadata. – New York: IEEE, 2005

19.  Открытые информационно-образовательные среды и технологии обучения, [электронный ресурс]. URL: http://spec.edu.ru/sights/spec.nsf/spectrebovania?OpenPage.

20.  Extensible Markup Language (XML) 1.1 (Second Edition) / XML Schema Language: Part 0 Primer, [электронный ресурс]. URL: /http://www.w3.org/TR/xmlschema-0/

21. Ефимов И.Н., Морозов Е.А., Жукова С.А., Магафуров В.В. Устойчивые алгоритмы на основе эквиаффинных преобразований //Вестник ИжГТУ.- Ижевск: Изд-во ИжГТУ № 3, 2013. – С. 165-167

22. А.М. Елизаров, Е.К. Липачев,  М.А. Малахальцев. Основы MathML. Представление математических текстов в Internet. – Казань, 2008. – 101 c., [электронный ресурс]. URL: http://www.niimm.ksu.ru/data/preprints/

23.  W3C MathML 2.0 Specification. – [электронный ресурс]. URL: http:// www.w 3.org /Math