Описание макета распределённой системы статистического анализа природных и техногенных явлений.

 

Введение.

 

            Физические явления окружающего мира являются взаимосвязанными. Например, продолжительность суток зависит от высоты снежного покрова. С увеличением количества снега возрастает момент инерции Земли и, следовательно, длительность суток. Для детального исследования этого явления требуется получить данные астрономических и метеорологических наблюдений,  а также создать или приобрести соответствующее программное обеспечение обработки этих данных. Применение новых информационных технологий распределенных систем позволяет существенно повысить оперативность и эффективность анализа данных операций. Теперь имеется возможность создания такой системы, что исследователь, сидя на своём рабочем месте, будет делать запрос к астрономическим метеорологическим и другим базам данных, а также связываться с вычислительными серверами, которые произведут нужные расчёты.

            Разработка распределённой системы статистического анализа является сложным и дорогостоящим проектом. Обычно созданию большого проекта предшествует разработка макета, представляющего небольшой программный комплекс, работающий, как правило, на локальных компьютерах и имитирующий функциональные возможности проекта в целом.

            Необходимость макетов обусловлена следующими причинами:

1)      До создания программ продукта заказчик располагает только дизайн документами, которые не всегда дают адекватное представление о конечном продукте. По этой причине типична ситуация, когда после  окончания работы над проектом заказчик бывает им неудовлетворён. При наличии макета заказчик может лучше понять, что он будет иметь на выходе и на начальном этапе разработки внести необходимые корректировки.

2)      Как правило, при разработке больших проектов имеются ошибки, связанные с несогласованностью структур данных и их взаимодействия. Исправление ошибок большого проекта является трудной и дорогостоящей задачей. Большая часть этих ошибок может быть выявлена при создании макета.

 

Наработки сделанные при создании макета успешно используются при разработке полнофункционального проекта. Схемы баз данных, программные модули, и пользовательские интерфейсы сделанного на локальном компьютере макета, могут быть перенесены на сервера и при необходимости откомпилированы.

Настоящий отчёт посвящён описанию версии 1.0 макета распределённой системы статистического анализа.

 

1.   Требования к распределённой системе анализа.

 

Перед тем как приступить к описанию макета опишем требования к распределённой системе анализа.

Для решения задач прогнозирования и управления природных и техногенных

явлений необходимо создание математических моделей. Модель адекватно отражает действительность, если она согласуется с экспериментальными данными. Распределённая система анализа должна представлять инструмент, помогающий исследователю осуществлять выбор моделей на основе экспериментальных данных, хранящихся в различных базах данных.

            Рассмотрим сначала математические аспекты данной проблемы. Математические модели можно условно подразделить на два типа. К первому типу следует отнести стандартные модели, которые часто встречаются в природе. В частности распределение Гаусса, Стьюдента или хи – квадрат, пригодны для описания статистических характеристик ошибок широкого класса явлений. Модели второго типа мы назовём конструируемыми. При их построении используется весь математический арсенал, включая различные комбинации элементарных функций, решения дифференциальных уравнений, интегральные преобразования и др. Существует потенциально бесконечное множество моделей данного типа, как и бесконечное множество природных явлений. Эффективная система анализа должна обеспечить пользователю возможности выбора моделей первого типа и конструирования моделей второго типа. Очевидно, что для конструирования моделей необходима разработка редактора формул.

            Рассмотрим теперь требования к пользовательскому интерфейсу. Для повышения эффективности данной системы целесообразно разместить её в Internet. При этом сразу решаются проблемы коммуникации. Отпадает необходимость пользователей отслеживания последних версий системы. Пользовательский интерфейс Internet приложений имеет следующие отличия от распространяемых на компакт дисках локальных приложений:

1)      Так как пользователи Internet имеют разные компьютеры с различными операционными системами интерфейс должен адаптироваться к любым аппаратным средствам и программным средам.

 

2). Обычно локальные приложения сопровождаются обширными инструкциями по их использованию. При помощи этих инструкций пользователь может разобраться в сложном пользовательском интерфейсе. Internet – пользователь не имеет таких инструкций. По этой причине интерфейс должен быть таким, чтобы пользователь мог разобраться в нём без инструкции либо при помощи очень краткой инструкции расположенной на той же странице, что и приложение.

 

2.   Анализ прототипов.

 

 

Наилучшим прототипом программы содержащий широкий арсенал математических методов является MathCAD. Он включает работу с формулами и широкий спектр математических методов. Идеальная распределённая система анализа должна содержать весь этот спектр. Однако MathCAD является программой, предназначенной для локальных компьютеров и работающей только в операционных системах Windows 9x/NT/2000 и не имеет выхода на распределённые базы данных. Освоение редактора формул MathCAD является задачей сложной даже для опытного пользователя компьютера. Требуется длительное время прежде чем пользователь найдёт в инструкции, что для ввода нижнего индекса необходимо ввести символ «.» (точка), а для введения степени символ «^». В последнее время появились Internet программы, содержащие интерпретаторы формул. К их числу относятся апплеты фирмы «Физикон». Но наиболее замечательным является апплет Долинского, расположенный на сайте

http://www.mb.hs-wismar.de/Mitarbeiter/Pawletta/00Uwe/formel.html .

 

Данный апплет обладает широкими функциональными возможностями включая дифференцирование и интегральные преобразования. К числу недостатков этих апплетов следует отнести то, в качестве они имеют примитивные однострочные редакторы формул. Вместе с тем учёные  - исследователи отдают предпочтение полноценным формульным редакторам.

Наиболее полная библиотека программ статистического анализа разработана группой Numercial Alhorithm Group (NAG). Многие фирмы приобретают у неё программное обеспечение или используют спецификации NAG для разработки собственных продуктов. В сложных коммерческих Internet – проектах при возникновении необходимости сложных вычислений осуществляется автоматическое подключение к вычислительным серверам NAG.

 

3.   Расширенная спецификация версии 1.0 макета.

 

Макет распределённой системы анализа содержит основные компоненты позволяющие пользователю иметь полное представление о создаваемой системе. Ниже приведена спецификация этих компонентов.

 

        Редактор формул.

 

Макет содержит мощный редактор формул позволяющий записывать выражения следующего вида

 

Привлекательной особенностью данного редактора является простота его использования. Работа с редактором напоминает детскую компьютерную головоломку. Пользователь выбирает нужные символы с панели инструментов и мышью перетаскивает их в нужные места формулы. Вид панели инструментов приведён ниже.

 

 

Разработаны две версии редактора. Первая написана на Java и работает на любой современной платформе. Она может быть интегрирована в любой пользовательский интерфейс Internet – приложения. Другая версия может быть интегрирована в любые приложения операционных систем Windows 95/98/NT.

 

        Интерпретатор формул.

 

Интерпретатор формул позволяет преобразовать формулу в древовидный объект. Используя данный объект можно производить вычисления по данной формуле и производить аналитическое вычисление частных производных. Кроме того, интерпретатор может осуществлять обратимые преобразования формул в строки, необходимые для импорта/экспорта формул в другие программные модули. Предполагается расширение интерпретатора с целью расширения спектра математических операций. Существуют две версии интерпретатора. Первая написана на Java. Вторая написана на C++ стандарта 1998 года и может после компиляции может быть использована на любой поддерживающей данный стандарт платформе (все современные операционные системы поддерживают данный стандарт).

 

        Модуль регрессионого анализа.

 

 

Модуль регрессионого анализа позволяет осуществлять расчёт параметров линейной и нелинейной регрессии. Количество параметров и переменных ограничено только техническими возможностями аппаратных средств. Модуль включает робастные алгоритмы регрессии прогнозирование и ретроспективу. Модуль разработан на С++ стандарта 1998 года и может быть использован на всех современных операционных системах.

 

        База данных.

 

База данных содержит результаты тестовых выборок, предназначенных для демонстрации макета и каталог формул. Структура базы поддерживает древовидный поиск формул и выборок. База данных написана с использованием драйвера INTERDEV.

 

        Модуль статистических распределений.

 

Модуль содержит функции распределений Гаусса, хи - квадрат, Колмогорова – Смирнова, выборочной корреляции нормального распределения, выборочной ранговой корреляции и функции вычисления квантилей асимметрии и эксцесса нормальной выборки.

 

Пользовательский интерфейс.

 

Пользовательский интерфейс написан на языке Borland C++ Builder. Он взаимодействует с со всеми описанными выше программными модулями и имеет следующие функциональные возможности:

-          числовое и графическое отображение результатов регрессии;

-          графическое отображение прогноза и ретроспективы;

-          графическое построение гистограмм апостериорных невязок и нормального распределения;

-          древовидные системы поиска моделей и выборок в базе данных.

В пользовательский интерфейс интегрирована Windows – версия редактора формул.