Главная страница
qrcode

Курсовая работа (проект) по дисциплине Методы сбора анализа медико-биологической информации


НазваниеКурсовая работа (проект) по дисциплине Методы сбора анализа медико-биологической информации
Дата20.07.2019
Размер1,82 Mb.
Формат файлаdoc
Имя файлаkursovaya_anton.doc
ТипКурсовая
#76925
страница1 из 3
Каталог
  1   2   3





Минобрнауки России

«ЮгоЗападный государственный университет»

Кафедра биомедицинской инженерии

КУРСОВАЯ РАБОТА (ПРОЕКТ)
по дисциплине «Методы сбора анализа медико-биологической информации»

(наименование дисциплины)

на тему «Построение решающих правил для разделения двухальтернативных выборок на основе геометрических методов классификации. Вариант 9 »

Направление подготовки (специальность)12.03.04 Биотехнические системы и технологий

(код, наименование)

________________________________________________________________

Автор работы (проекта)

(инициалы, фамилия) (подпись, дата)
Группа БМ-61б
Руководитель работы (проекта) С.А.Филист _____________ (инициалы, фамилия) (подпись, дата)
Работа (проект) защищена ________________________

(дата)

Оценка_____________________
Члены комиссии _________________________ _______________

(подпись, дата) (инициалы, фамилия)
_________________________ __________________________

(подпись, дата) (инициалы, фамилия)
(подпись, дата) (инициалы, фамилия)


Минобрнауки России

«ЮгоЗападный государственный университет»
Кафедра БМИ
ЗАДАНИЕ НА КУРСОВУЮ РАБОТУ (ПРОЕКТ)
Студент шифр группа БМ-61б

(фамилия, инициалы)

1. Тема Построение решающих правил для разделения двухальтернативных выборок на основе геометрических методов классификации. Вариант 9

2. Срок представления работы (проекта) к защите « » 2018 г.

3. Исходные данные (для проектирования, для научного исследования):

Задание руководителя

4. Содержание пояснительной записки курсовой работы (проекта):

4.1 Введение

4.2 Функции и инструменты MATHCAD

4.3 Методология анализа полученных данных

4.4 Обработка таблиц экспериментальных данных

4.5 Заключение

4.6 Список использованных источников

5. Перечень графического материала: не предусмотрено
Руководитель работы (проекта) ________________________С.А.Филист (подпись, дата) (инициалы, фамилия)


Задание принял к исполнению ______________ ____________

(подпись, дата) (инициалы, фамилия)


Реферат
Работа состоит из 41 страниц, содержит 16 рисунков, 26 таблиц и 27 формулы.

Цель: сформировать две обучающие выборки для двух диагностируемых классов. В каждую выборку входит по пять вариационных рядов Х1…Х4 и Х11…44.

Задачей работы является получение на основе статистического анализа и при применении современных компьютерных средств технического анализа данных, решающих диагностических правил.


Содержание
Введение 5

1 Функции и инструменты MATHCAD 6

1.1 Случайные величины. Функции распределения 6

1.2 Наиболее распространённые частные распределения непрерывных случайных величин 7

1.2.1 Равномерное распределение 7

1.2.2 Экспоненциальное (показательное) распределение 7

1.2.3 Нормальное распределение 8

2 Методология анализа полученных данных 10

2.1 Разведочный анализ 10

2.2 Корреляционный анализ 11

2.3 Дискриминантный анализ 12

2.4 Построение уравнения гиперплоскости 12

2.5 Оценка эффективности модуля нечеткой классификации 15

2.6 Формирование двух обучающих выборок в Mathcad 16

2.7 Листинг программы нормального распределения в Mathcad 17

2.8 Графический анализ данных 17

3 Обработка таблиц экспериментальных данных 18

3.1 Формирование двух обучающих выборок в Mathcad 18

3.2 Разведочный анализ 22

3.3 Графический анализ 24

3.4 Корреляционный анализ данных 29

3.5 Построение линейной разделяющей гиперплоскости 30

3.6 Дискриминантный анализ данных 32

3.7 Проверка решающих правил на контрольной выборке 34

Заключение 40

Список использованных источников 41


Введение
Программы Statistica и MS Excel предоставляют богатые возможности создания и изменения таблиц, которые могут содержать числа, тексты, даты, денежные единицы, графику, а также математические и иные формулы для выполнения вычислений.

Предусмотрены средства представления числовых данных в виде диаграммы, создания, сортировки и фильтрации списков, статического анализа данных и решения оптимизационных задач.

Объектом являются две обучающих выборки для двух диагностируемых классов. В каждую выборку входит по пять вариационных рядов Х1…Х4 и Х11…44. Формирование вариационных рядов осуществляется посредством генератора случайных чисел с нормальным законом распределения

Предметом исследования является применение программы MS Excel, Statistica и Mathcad для решения статистических задач.

Актуальность работы обусловлена недостаточной реализацией возможностей MS Excel, Statistica для решения статистических задач.

Цель сформировать две обучающие выборки для двух диагностируемых классов. В каждую выборку входит по пять вариационных рядов Х1…Х4
1 Функции и инструменты MATHCAD


Случайные величины. Функции распределения


Теория вероятностей изучает математические модели случайных явлений окружающего нас мира. Одно из центральных понятий теории вероятностей – понятие случайной величины. Случайной величиной называется числовая функция, заданная на множестве случайных событий.

Для проведения вычислений со случайными величинами (непрерывными и дискретными) в MathCad есть богатая библиотека встроенных функций наиболее распространенных стандартных распределений. Каждое распределение представлено в библиотеке тремя функциями — плотностью вероятностей, функцией распределения и функцией, обратной к функции распределения. Имена всех встроенных функций, определяющих плотности вероятностей, начинаются с буквы d, определяющих функции распределения – с буквы р. Например, для работы с нормальным распределением предназначены функции dnorm(x,h,s), pnorm(x,h,s) и qnorm(x,h,s).

Важно понимать, что функция распределения является «паспортом» случайной величины: она содержит всю информацию об этой случайной величине, и поэтому изучение случайной величины заключается в исследовании ее функции распределения, которую часто называют просто распределением.


1.2 Наиболее распространённые частные распределения непрерывных случайных величин
1.2.1 Равномерное распределение
Непрерывная случайная величина ξ , принимающая значение на отрезке [a,b], распределена равномерно на [a,b], если плотность распределения pξ(x) и функция распределения случайной величины ξ имеют соответственно вид
(1)
(2)
В Mathcad значения в точке x плотности распределения и функции распределения случайной величины, имеющей равномерное распределение на отрезке [a,b], вычисляются встроенными функциями соответственно dunif(x,a,b) и punif(x,a,b).
1.2.2 Экспоненциальное (показательное) распределение
Непрерывная случайная величина ξ имеет показательное распределение с параметром λ > 0, если плотность распределения имеет вид
(3)
(4)
В Mathcad значения в точке x плотности распределения и функции распределения случайной величины, имеющей экспоненциальное распределение с параметром λ, вычисляются встроенными функциями соответственно dexp(x, l) и pexp(x, l).
1.2.3 Нормальное распределение
Это распределение играет исключительно важную роль в теории вероятностей и математической статистике. Случайная величина ξ нормально распределена с параметрами a и σ, σ > 0, если её плотность распределения имеет вид
(5)
Если случайная величина ξ имеет нормальное распределение с параметрами a и σ, то будем записывать это в виде ξ

N(a,σ). Случайная величина ξ имеет стандартное нормальное распределение, если a=0 и σ=1, ξ N(0,1). Плотность стандартного нормального распределения имеет вид
(6)
а его функция распределения , где – функция Лапласа:
(7)

Функция распределения нормальной величины ηN(a,σ) также выражается через функцию Лапласа:

В MathCad значения в точке x плотности распределения и функции распределения нормальной случайной величины с параметрами a, σ вычисляются встроенными функциями соответственно dnorm(x,a,s) и pnorm(x,a,s).

2 Методология анализа полученных данных


Разведочный анализ


Находятся мат. ожидание, дисперсия ско по каждому признаку:
(8)
, (9)
где n - длина выборки
, (10)
Медианой называется то значение, которое удовлетворяет условию
(11)
где М-медиана
Модой называется то значение, частота встречаемости которого максимальна.

Коэффициент вариации – относительная величина, которая показывает, какую долю среднего значения величины составляет ее средний разброс:

, (12)

Коэффициент асимметрии определяют по расположению кривой распределения относительно моды. Если длинная часть расположена левее моды, то As<0, если правее, то As>0 :
, (13)
Эксцесс служит для характеристики крутости, т.е. подъема кривой распределения по сравнению с нормальной кривой. Если Ex>0, то кривая распределения имеет более высокую и острую вершину, если Ex<0, то более низкую и плоскую вершину:
, (14)
Доверительный интервал имеет вид:
, (15)
Значения выборки, не входящие в доверительные интервал (артефакты) удаляются и заменяются значениями математического ожидания.
2.2 Корреляционный анализ
Для описания материала используется коэффициент корреляции, принимающий значения от -1 до+1. Для каждой выборки необходимо составить корреляционную матрицу, в результате анализа которой признаки, чьи значения коэффициента корреляции наиболее значимы и практически равны в обеих таблицах, необходимо исключить.

2.3. Построение уравнения гиперплоскости
Чтобы перейти к вычислениям гиперплоскости необходимо рассчитать путь К, через середину отрезка, соединяющего центроиды двух обучающих выборок и перпендикулярный к нему.
(16)
где М[x] – математическое ожидание здоровых, а М[у] – математическое ожидание больных.

(17)
Уравнение разделяющей гиперплоскости:
(18)

где , - признаки


Дискриминантный анализ


Совокупность объектов, относящихся к одному классу , образует «облако» в p-мерном пространстве Rp, задаваемом исходными признаками. Для успешной классификации необходимо, чтобы:

облако из в основном было сконцентрировано в некоторой области Di пространства Rp;

в область Di попала незначительная часть «облаков» объектов, соответствующих остальным.

Основной целью дискриминации является нахождение такой линейной комбинации переменных, которая бы оптимально разделила рассматриваемые группы. Линейная функция
, (19)
при i=1, 2,…, nk; k=1, 2,…, p; называется дискриминантной функцией с неизвестными коэффициентами . Здесь – расчетное значение функции для i -го объекта из группы k, состоящей из совокупности nk измерений; – значение j-й дискриминантной переменной, j=1, 2,…, m– столбцы матрицы наблюдений.

В общем случае необходимо рассчитатьpлинейных дискриминантных функций, равное количеству анализируемых популяций, после чего с использованием коэффициентов и постоянной можно провести классификацию любого произвольного наблюдения. Для этого необходимо подставить значения переменных вектора xв дискриминантные уравнения для каждой kгруппы и рассчитать значения оценок отклика, k = 1, 2,…, p. Вектор x классифицируется как принадлежащий тому классу (группе измерений, популяции) k,для которого величина dkимеет максимальное значение.

Для расчета коэффициентов дискриминантных функций нужен статистический критерий, оценивающий различия между группами. Классификация переменных будет осуществляться тем лучше, чем меньше рассеяние точек относительно центроида внутри группы и чем больше расстояние между центроидами групп. Один из методов поиска наилучшей дискриминации данных заключается в нахождении дискриминантных функций dk,которые были бы основаны на максимуме отношения межгрупповой вариации к внутригрупповой.

Кроме задачи объяснения, другой главной целью применения дискриминантного анализа является задача прогнозирования. Как только модель установлена и получены дискриминирующие функции, возникает вопрос о том, как хорошо они могут предсказывать, к какой совокупности принадлежит конкретное измерение. Обычно классификация объектов осуществляется с использованием одного из следующих методов:

• произвольный вектор наблюдений х относится к классу k,для которого значение отклика дискриминантных функций является максимальным среди всех k=1, 2,…, p;

вычисляется расстояние Махаланобиса от анализируемого наблюдения до "центра тяжести" каждой группы и наблюдение признается принадлежащим к той совокупности, к которой оно ближе в смысле минимума этого расстояния (этот метод классифицирования считается не вполне точным, так как предполагает нормальный закон распределения относительно среднего для каждой группы);

В некоторых случаях образы любого из рассматриваемых классов проявляют тенденцию к тесной группировке вокруг некоторого образа, являющегося типичным или репрезентативным для соответствующего класса. Подобные ситуации возникают, если изменчивость образов невелика, а помехи легко поддаются учету. В таких случаях находится центр каждого класса и определяется расстояние между центром каждого класса и распознаваемым объектом. Данное расстояние называется евклидовым и вычисляется по формуле (20):
, (20)
Классификатор, построенный по принципу минимума расстояния, вычисляет расстояние, отделяющее неклассифицированный образ х от эталона каждого класса, и зачисляет этот образ в класс, оказавшийся ближайшим к нему. В случае равенства расстояний, решение о распределении объекта в класс принимается самостоятельно.

Умение находить в заданном наборе данных эталоны или центры кластеров играет главную роль в построении классификаторов образов по принципу минимума расстояния.

Помимо евклидова расстояния в качестве меры близости используются и другие. Расстояние Махаланобиса вычисляется по формуле (21):
, (21)

где – ковариационная матрица генеральной совокупности, из которой извлекаются наблюдения Xi, а – некоторая симметричная матрица весовых коэффициентов.


Оценка эффективности модуля нечеткой классификации


В качестве расчетных показателей качества диагностических решающих правил используется диагностическая чувствительность (ДЧ), диагностическая специфичность (ДС), прогностическая значимость положительных результатов (ПЗ+), прогностическая значимость отрицательных результатов (ПЗ-), диагностическая эффективность решающего правила (ДЭ). Показатели вычисляются по данным таблицы распределений результатов контрольных испытаний (таблица 1).
Таблица 1 – Таблица контрольных испытаний

Обследуемые

Результаты срабатывания правил

Всего

Положительные

отрицательные

nωr

ИП

ЛО

ИП+ЛО

nω0

ЛП

ИО

ЛП+ИО

Всего

ИП+ЛП

ЛО+ИО

ИП+ЛП+ЛО+ИО


r - номер класса исследуемого заболевания; nωr - количество людей в контрольной выборке в исследуемом классе заболеваний; nω0 - количество здоровых людей в контрольной выборке; ИП - истинно положительный результат, равный количеству людей класса ωr правильно классифицируемых рассматриваемым правилом; ЛП - ложно положительный результат, равный количеству людей класса ω0 ошибочно отнесенных решающим правилом к классу ωr; JIO - ложно отрицательный результат: количество людей класса ωr ошибочно отнесенных решающим правилом к классу ω0; ИО - истинно отрицательный результат: количество людей класса ω0 правильно классифицируемых решающим правилом.

Для приведенных в таблице обозначений расчет показателей качества осуществляется в соответствии с выражениями:


(22)


2.6 Формирование двух обучающих выборок в Mathcad
Используя пакет MathCad сформировать две обучающих выборки для двух диагностируемых классов. В каждую выборку входит по пять вариационных рядов Х1…Х4 и Х11…44. Формирование вариационных рядов осуществляется посредством генератора случайных чисел с нормальным законом распределения.


2.7 Листинг программы нормального распределения в Mathcad
Листинг программы нормального распределения в Mathcad

где - количество строк,

- математическое ожидание

- среднеквадратичное отклонение

-нормальное распределение
2.8 Графический анализ данных
Одним из главных видов графического анализа данных является гистограммы распределения

Гистограмма распределения - это инструмент, позволяющий визуально оценить величину и характер разброса данных. Создадим гистограмму для непрерывной случайной величины с помощью встроенных средств Microsoft Excel из надстройки Пакет анализа и в ручную с помощью функции ЧАСТОТА() и диаграммы.

Гистограмма (frequency histogram) – это столбиковая диаграмма Microsoft Excel, в каждый столбик представляет собой интервал (шаг) значений (корзину, карман, class interval, bin, cell), а его высота пропорциональна количеству значений в ней (частоте наблюдений).
  1   2   3

перейти в каталог файлов


связь с админом