Семинар «Анализ и майнинг данных»



Скачать 349.3 Kb.
Дата24.12.2016
Размер349.3 Kb.
Просмотров117
Скачиваний0
ТипСеминар
Правительство Российской Федерации
Государственное образовательное бюджетное учреждение
высшего профессионального образования


Национальный исследовательский университет

Высшая школа экономики
Факультет КОМПЬЮТЕРНЫХ НАУК

Программа дисциплины
Научно-исследовательский семинар

«Анализ и майнинг данных»

(2-4 курсы бакалавриата)
для направления 01.03.02 «Прикладная математика и информатика»,

Авторы: Незнанов А.А. (aneznanov@hse.ru),

Пьяных О.С. (opianyh@hse.ru)

Осадчий А.Е. (alexeyossadtchiy@hse.ru).




Одобрена на заседании департамента анализа данных и искусственного интеллекта

Рук. департамента __________________ Кузнецов С.О.

«31» августа 2015 г.






Москва


I.Пояснительная записка

Авторы программы


кандидат технических наук, доцент А.А. Незнанов;

Ph.d., профессор О.С. Пьяных;

Ph.d., профессор А.Е. Осадчий.

Требования к студентам


Изучение дисциплины «Научно-исследовательский семинар «Анализ и майнинг данных» на 3-4 курсе требует изучения дисциплины «Научный семинар» на 2 курсе ОП «Прикладная математика и информатика». Знание английского языка на уровне свободного чтения англоязычных текстов желательно.

Аннотация


Дисциплина «Научный семинар» предназначена для подготовки бакалавров по направлению 010302 – Прикладная математика и информатика.

Основной целью научно-исследовательского семинара «Анализ и майнинг данных» является развитие у бакалавров профессиональной компетенции, необходимой для самостоятельной аналитической работы в прикладных областях, выработка навыков обработки и стандартизации хранения данных, построения модели и эксперимента, а также оформления результатов исследований в виде научных текстов.



Основными навыками и областями компетенции студентов по результатам освоения НИС должны стать:

  • доступ к источникам данных (открытым и связанным данным, сетевым хранилищам и специализированным сервисам) в соответствии с международными стандартами на форматы и протоколы передачи данных;

  • анализ источников информации – научных публикаций, статистических данных, мультимедийных данных;

  • выполнение научных исследований в перспективных прикладных направлениях медицинской информатики при помощи современных методов анализа данных;

  • Выбор адекватной модели, идентификация параметров моделей, оценка качества подгонки, выработка рекомендаций по параметрам экспериментального дизайна нейрокогнитивных экспериментов;

  • представление результатов исследований (включая научную дискуссию, подготовку научных сообщений, докладов и публикаций в форме коротких статей на студенческую конференцию, публичная презентация проектов).

Вначале, студенты знакомятся с научным подходом и методологией науки в целом и компьютерных наук в частности, благодаря участию всех преподавателей департамента подготавливаются к осознанному выбору тем будущих междисциплинарных и выпускных квалификационных работ, происходит знакомство с основными технологиями и инструментами организации индивидуальной и коллективной научно-исследовательской работы. Получение опыта публичного выступления в рамках описания форматов открытых данных становится важной составляющей вводного блока. Изучаются:

  • Методология науки в целом и компьютерных наук в частности.

  • Научные направления научных исследований преподавателей факультета компьютерных наук и аффилированных с ним ОП.

  • Основы ведения научной дискуссии с приглашением ведущих руководителей секций научных семинаров. Формализация, краткое изложение и визуализация результатов исследований в письменной и устной формах.

  • Основы работы в системе компьютерной верстки естественно-научных текстов TeX (LaTeX).

  • Составление списков использованных источников, цитирование и работа с библиографическими базами (BibTeX, BibLaTeX). Ведение собственных тематических и авторских библиографий с использованием JabRef, Mendeley, Zotero.

  • Коллективная работа над исправлением замечаний рецензента в онлайн-сервисе www.sharelatex.com.

  • Подготовка мультимедийной презентации в Microsoft PowerPoint или с использованием пакета Biber для LaTeX документов.

  • Дистанционная защита курсовой работы с использованием сервисов www.gotomeeting.com, www.zoom.us.

В продолжение курса студенты знакомятся с новым для них междисциплинарном направлением исследований – медицинской информатикой – одной из наиболее динамично развивающихся дисциплин, возникшей на стыке современной медицины и математических методов анализа ее данных. Изучение методов, применяемых в медицинской информатике, ориентировано на подготовку студентов к научной и практической работе с современными информационными технологиями в медицине.

Студенты должны:



  • ознакомиться с основными целями и принципами медицинской информатики;

  • изучить базовые методы представления медицинской информации;

  • ознакомиться с основными алгоритмами анализа медицинских изображений;

  • ознакомиться с принципами построения и работы медицинских информационных сетей;

  • Научиться использовать современные средства обработки медицинских данных и экспорта/импорта данных в формате DICOM.

На этом этапе к проведению НИСа также подключаются сотрудники МНУЛ «Интеллектуальные системы и структурный анализ», которые на примере работ стажеров-исследователей и их научных руководителей демонстрируют, каким образом знания в области анализа и обработки медицинских данных могут применяться на практике, например, на примере сотрудничества с ФНКЦ ДГОИ им. Рогачева, с которым НИУ ВШЭ проводит совместные исследования по выявлению методик лечения и прогнозирования развития онкологических заболеваний у детей. Данный центр является первым и крупнейшим в России медицинским учреждением, поддерживающим международные стандарты хранения и обработки медицинской информации, которая затем используется в международных исследованиях методик и способов лечения онкологических заболеваний.

Студенты изучают методы выделения групп пациентов для улучшений методик лечения относительно показателя выживаемости в группе, а также разрабатывают новые методы обработки и хранения медицинских снимков, полученных при помощи МРТ и ЭЭГ, под руководством профессора Гарвардской медицинской школы О. Пьяных.В заключение, студенты знакомятся с новой для них методикой неинвазивной нейровизуализации – и впервые в рамках курса проводят полевые эксперименты со сбором реальных электроэнцефалографических данных под руководством старшего научного сотрудника центра по нейрокогнитивным исследованиям, А. Осадчего. Методики неинвазивной нейровизуализации на основе ЭЭГ и МЭГ в сочетании с алгоритмами решения обратной задачи обеспечивает беспрецедентное пространственно-временное разрешение, позволяющее детально исследовать быстропротекающие процессы в головном мозге, лежащее в основе экспериментально-контролируемой когнитивной деятельности.

В рамках занятий освещается обзор методов функциональной диагностики мозга (ПЭТ, фЯМР, МРТ, КТ, ЭМЭГ, ЭЭГ) и в рамках открытых лекций НИУ ВШЭ демонстрируют результаты машинного обучения на основе анализа данных, полученных неинвазивным методом (без нарушения целостности тканей) считыванием активности коры головного мозга. Одним из возможных результатов предлагается реализовать набор текста или управление движением в компьютерной игре силой мысли.

Программа семинара включает следующие компоненты, связанные с поддержкой написания исследовательских работ:



  1. Углубление понимания научного подхода и методологии науки.

  2. Подготовка к осознанному выбору темы будущей выпускной квалификационной работы (ВКР). Сюда относится также обзор основных направлений научной деятельности подразделений НИУ ВШЭ, имеющих отношение к реализации научно-исследовательской составляющей концепции ОП «Прикладная математика и информатика».

  3. Основы теории чисел и её приложения.

  4. Знакомство с основными технологиями и инструментами организации индивидуальной и коллективной научно-исследовательской работы.

  5. Подготовка доклада на научной конференции и написание тезисов доклада.

Задача третьего года обучения – обеспечить продолжение профессиональной ориентации студента, снабдить студента необходимым минимумом знаний и компетенций для участия в научных конференциях и прикладных проектах.

Учебные задачи дисциплины


Данный курс должен помочь сформировать базовые навыки подготовки к выступлению с докладом на конференции и развить навыки научной деятельности.

В результате изучения дисциплины «Научно-исследовательский семинар «Анализ и майнинг данных» студенты должны:



  1. понимать принципы научного подхода и методологию научного поиска;

  2. уметь адекватно анализировать и оценивать научную деятельность;

  3. уметь оформить научный текст и отчет в системе верстки LaTeX, оформить список библиографии в соответствии с ГОСТ;

  4. уметь подготовить выступление с использованием средств коллективной работы с текстом и подготовки презентации, и защитить реферат по методам работы с открытыми данными в виде краткого доклада и научной дискуссии.

  5. знать стандарт DICOM, способы извлечения и хранения информации в международных стандартах в медицинской информатике;

  6. знать основные методы при сжатии изображений и методы кодирования для сжатия с потерями или для безопасной передачи данных;

  7. знать основные методы функциональной диагностики мозга (ФДМ): ПЭТ, фЯМР, КТ, ЭМЭГ

  8. уметь решать прямую и обратную задачи ЭЭГ и МЭГ;

  9. уметь измерить параметры электрического кортикального поля на основе измерений с диполей;

  10. владеть навыками прогнозирования решений, принимаемых человеческим мозгом, на основе регистрации и обработки сигналов коры головного мозга.

Развиваемые компетенции


Дисциплина «Научно-исследовательский семинар «Анализ и майнинг данных» формирует следующие компетенции (классификация 2014 года).

  1. ОНК-1: способность к анализу и синтезу на основе системного подхода.

  2. ОНК-2: способность перейти от проблемной ситуации к проблемам, задачам и лежащим в их основе противоречиям.

  3. ОНК-3: способность использовать методы критического анализа, развития научных теорий, опровержения и фальсификации, оценить качество исследований в некоторой предметной области.

  4. ОНК-5: готовность выявить естественно-научную сущность проблем, возникающих в ходе профессиональной деятельности, привлечь их для решения соответствующий физико-математический аппарат.

  5. ОНК-6: способность приобретать новые знания с использованием научной методологии и современных образовательных и информационных технологий.

  6. ИК-4: способность аналитически работать с информацией из различных источников, включая глобальных компьютерных сетях.

  7. СЛК-10: способность использовать в научной и познавательной деятельности, а также в социальной сфере профессиональные навыки работы с информационными и компьютерными технологиями.

  8. ПК-3: способность в составе научно-исследовательского и производственного коллектива решать задачи профессиональной деятельности в соответствии с профилем подготовки, общаться с экспертами в других предметных областях.

  9. ПК-5: способность осуществлять целенаправленный многокритериальный поиск информации о новейших научных и технологических достижениях в сети Интернет и из других источников.

  10. ПК-6: способность собирать, обрабатывать и интерпретировать данные современных научных исследований, необходимые для формирования выводов по соответствующим научным, профессиональным, социальным и этическим проблемам.

  11. ПК-8: способность решать задачи производственной и технологической деятельности на профессиональном уровне, включая разработку математических моделей, алгоритмических и программных решений.

  12. ПК-9: способность применять в профессиональной деятельности современные языки программирования и языки баз данных, операционные системы, электронные библиотеки и пакеты программ, сетевые технологии и т.п.

    • ПК-9-НИС1: способность применять системы управления библиографией.

    • ПК-9-НИС2: способность применять специализированные программные средства подготовки презентаций.

    • ПК-9-НИС3: способность применять специализированные программные средства подготовки научных публикаций.

  13. ПК-11: способность составлять и контролировать план выполняемой работы, планировать необходимые для выполнения работы ресурсы, оценивать результаты собственной работы.


II.Тематический план курса
«Научный семинар (3 курс бакалавриата)»




Название темы занятия

Всего часов по дисциплине

Аудиторные часы

Самосто-ятельная работа

Семинар

1

Методология науки.

6

2

4

2

Методология выбора, подготовки и защиты КР.

6

2

4

3

Технические и программные средства подготовки КР.

8

2

6

4

Ведение научной дискуссии и участие в научных мероприятиях. Методология написания тезисов и подготовки выступления на научной конференции.

6

2

4

5

Введение в медицинскую информатику

6

2

4

6

Работа с медицинскими изображениями

6

2

4

7

Автоматизированная диагностика

8

2

6

8

Безопасность передачи и хранения данных

6

2

4

9

Методы неинвазивного нейрокартирования

6

2

4

10

Принципы и устройства для регистрации ЭЭГ и МЭГ. Уравнения Максвелла

6

2

4

11

Токовый диполь, прямая задача ЭЭГ и МЭГ

6

2

4

12

Уравнение наблюдения ЭЭГ и МЭГ

6

2

4

13

Классификация методов решения обратной задачи ЭЭГ и МЭГ

6

2

4

14

Метод минимальной нормы. Интерпретация в Байесовской парадигме

6

2

4

15

Улучшения ММН: Loreta, GALA

8

2

6

16

Параметрические методы решения обратной задачи. Подгонка дипольной модели

6

2

4

17

Метод неградиентной оптимизации Нелдера-Мида

6

2

4

18

Решение задачи оценки активации нейрональной популяции по неинвазивным ЭЭГ измерениям при помощи метода формирователя луча

6

2

4




Итого

114

36

78


III.Учебно-методическое и информационное
обеспечение дисциплины

Список литературы

Базовый учебник


Ридер, составленный по следующим источникам.

  1. С.М. Львовский. Набор и верстка в системе LaTeX (http://www.mccme.ru/free-books/llang/newllang.pdf)

  2. Оформление библиографии (http://www.academics.hse.ru/bibliography)

  3. Pianykh O. Digital Image Quality in Medicine. NY : Springer Verlag, 2013.

  4. Oglevee C., Pianykh O. Losing Images in Digital Radiology: More than You Think // Journal of Digital Imaging. 2014. P. 1-8.

  5. Zubarev I., Shestakova A., Klucharev V., Ossadtchi A. MEG study of social conformity

http://publications.hse.ru/chapters/110990446

Основная литература


  1. Жилин Д. М. Теория систем: опыт построения курса. – КомКнига, 2006. – 184 с.

  2. Поппер К. Предположения и опровержения. Рост научного знания. – АСТ, 2004. – 640 с.

  3. Лакатос И. Избранные произведения по философии и методологии науки. – Академический проект, 2008. – 480 с.

  4. Кун Т. Структура научных революций. – АСТ, 2009. – 320 с.

  5. Новиков А.М., Новиков Д.А. Методология научного исследования. – М.: Либроком, 2010. – 280 с.

  6. Положение о курсовой работе/курсовом проекте студентов, обучающихся по программам подготовки бакалавров и специалистов, в Национальном исследовательском университете «Высшая школа экономики» (http://www.hse.ru/docs/28971882.html)

  7. R.S.Ledley, L.B.Lusted, "Reasoning Foundation s of Medical Diagnosis”, Science, July 3 1959

  8. R.S.Ledley, "Digital Electronic Computers in Biomedical Science", Science, November 6 1959

  9. M.F. Collen, “Origins of medical informatics”, West. J. Med. 145 (1986) 778–785

  10. D.F. Sittig, J.S. Ash, R.S.Ledley, “The Story Behind the Development of the First Whole-body Computerized Tomography Scanner as Told by Robert S. Ledley”, Journal of the American Medical Informatics Association Volume 13 Number 5 Sep / Oct 2006

  11. M.J. Schuemie, J.L. Talmon, P.W. Moorman, J.A. Kors, Mapping the domain of medical informatics, Methods Inf. Med. 48 (2009) 76–83

  12. R. Haux, Medical informatics: Past, present, future, international journal of medical informatics 79 (2010) 599–610

  13. Zubarev I., Ossadtchi A., Klucharev V., Shestakova A. MEG signature of social conformity: evidence from evoked and induced responses / Working papers by Центр Нейроэкономики и когнититвных исследований. Series. 1, 1. 2014.

  14. A. Ossadtchi, P. Pronko, M. Pflieger, T. Stroganova, Mutual information spectrum – a new tool for detection of event related components in spatial decompositions and its application to M1 cerebral zone localization, Frontiers in Human Neuroscience

  15. D. Thyerlei, A. Ossadtchi, T. Maleeva, A.N. Mamelak and W.W. Sutherling, Using intracranial depth electrode stimulation as a reference source for reconstruction from simultaneous scalp-EEG. NeuroImage 2003;

  16. Sanei S., Chambers J.A. Eeg Signal Processing. – Wiley, 2007. – 290 p.

  17. Neuroscience Online: An Electronic Textbook for the Neurosciences (http://neuroscience.uth.tmc.edu)

Дополнительная литература


  1. Новиков А.М., Новиков Д.А. Методология научного исследования. – М.: Либроком, 2010. – 280 с.

  2. Кузнецов И. Н. Научное исследование: Методика проведения и оформление. – 2-е изд. – М.: Дашков и Ко, 2006. – 460 с.

  3. Заметки к лекции Б.Г. Миркина «Структура научного доклада и основы научного обсуждения».

  4. Колесникова Н.И. От конспекта к диссертации: Учебное пособие по развитию навыков письменной речи. – М.: Флинта: Наука, 2009. – 288 с.

  5. Center for Open Science (http://centerforopenscience.org)

  6. The OpenScience Project (http://www.openscience.org)

  7. J.P. DeShazo, D.L. LaVallie, F.M.Wolf, Publication trends in the medical informatics literature: 20 years of "Medical Informatics" in MeSH, BioMedCentral, Januaru 21, 2009.

  8. Bansard JY, Rebholz-Schuhmann D, Cameron G, Clark D, van Mulligen E, Beltrame E, Barbolla E, Martin-Sanchez Fdel H, Milanesi L, Tollis I, van der Lei J, Coatrieux JL, Medical informatics and bioinformatics: a bibliometric study, IEEE Trans Inf Technol Biomed. 2007 May;11(3):237-43. Review

  9. Ossadtchi A. Connectivity measures applied to human brain electrophysiological data // Journal of Neuroscience Methods, 207(1), 2012, pp. 1-16.

  10. The OpenScience Project (http://www.openscience.org)

  11. Frictionless Open Data (http://data.okfn.org)

  12. The Open Source Data Science Masters – Curriculum for Data Science (http://datasciencemasters.org)


IV.Формы контроля и структура итоговой оценки


Текущий контроль

В 1-м модуле оценивается реферат по одному из способов хранения (полнота описания – 20%), обработки (сравнение методов и программных продуктов – 20%) и извлечения данных (сравнение с собственной реализацией – 20%). Реферат выполняется в среде коллективной работы ShareLaTeX и сопровождается презентацией в пакете Beamer. 40% оценки за реферат составляет оценка студентами выступления участника и его уровень ведения научной дискуссиии.

Во 2-м модуле выполняются 4 проекта, каждый из которых оценивается преподавателем индивидуально (25% каждый). Проект по изучению стандарта DICOM оценивается на основе полноты разбора представления данных. Проекты по обработке 2D и 3D изображений и автоматической диагностике пациентов оцениваются по количественным метрикам соотношения сжатие объема/потеря качества изображения и точности кластеризации патологий – оценка выставляется по системе grade-by-queue как соответствующие проценты от результатов в группе, но не ниже требуемых в условии значений (для оценки «отлично»). Проекты по цифровым меткам и безопасности проверяются экспериментально на основе результатов изучения работы Mapping Digital Radiology Adoption and Security Worldwide и апробации системы защиты данных, или исследования технологии цифровых меток на примере открытых данных.

В 3-4 модулях каждое ДЗ (предполагается 3-4 дз с равными коэффициентами и вложенные по содержанию решаемых заданий) проверяется «старшими» кураторами по проектам от департамента психологии и департамента анализа данных и искусственного интеллекта. Результаты методов прогнозирования моделей сравниваются внутри каждого из проектов и шкалируются внутри группы.



Итоговый контроль – 1 экзамен виде публичного представления проекта (в конце четвертого модуля); в случае невыполнения проекта (и низкой накопленной пропускавших занятия студентов) проводится устный экзамен по темам 3-4 модулей, содержащим основные научные направления семинара. Итоговый проект на публичное представление отбирает специальное жюри. Каждый из проектов оценивается научными сотрудниками центра НКИ и МНУЛ ИССА вместе с преподавателями семинара.

Итоговая оценка складывается из следующих элементов:



Отекущий = 0,2·О1 модуль + 0,4·О2 модуль + 0,4·О3-4 модули

Одисциплина = 0,2·Оэкзамен + 0,8·Отекущий

Д/з сдаётся не позднее установленной преподавателем даты (зависит от графика учебного процесса и объявляется при выдаче задания). Д/з защищается путём демонстрации отчёта и ответов на вопросы преподавателя по отчёту.

На пересдаче неудовлетворительной оценки за д/з студенту предоставляется возможность получить не более 3 дополнительных баллов для компенсации оценки за текущий контроль. Дата пересдачи определяется преподавателем (зависит от графика учебного процесса и объявляется после проверки отчётов по д/з). Пересдача д/з допускается только один раз.

Посещение менее 50% обязательных научных мероприятий (семинаров, указанных преподавателем) ведет к выставлению текущей оценки не выше, чем оценка «удовлетворительно». Пропуск обязательных научных мероприятий необходимо компенсировать сдачей индивидуального отчета по пропущенным темам.


Таблица соответствия оценок по десятибалльной и системе зачет/незачет


Оценка по 10-балльной шкале

Оценка по 5-балльной шкале

1

незачет

2

3

4

зачет

5

6

7

8

9

10


Таблица соответствия оценок по десятибалльной и пятибалльной системе


По десятибалльной шкале

По пятибалльной системе

1 – неудовлетворительно

2 – очень плохо

3 – плохо


неудовлетворительно – 2

4 – удовлетворительно

5 – весьма удовлетворительно



удовлетворительно – 3

6 – хорошо

7 – очень хорошо



хорошо – 4

8 – почти отлично

9 – отлично

10 – блестяще


отлично – 5


V.Программа дисциплины

Тема 1. Методология науки


История развития прикладной математики и информатики. Научный метод. Гипотезы, теории и их фальсифицируемость. Эксперименты и их воспроизводимость. Методология научных исследований.

Основные направления развития компьютерных наук. Научные группы на факультете компьютерных наук НИУ ВШЭ.

Введение в современные технологии поддержки научно-исследовательской деятельности.

Основная литература


  1. Жилин Д. М. Теория систем: опыт построения курса. – КомКнига, 2006. – 184 с.

  2. Поппер К. Предположения и опровержения. Рост научного знания. – АСТ, 2004. – 640 с.

  3. Лакатос И. Избранные произведения по философии и методологии науки. – Академический проект, 2008. – 480 с.

  4. Кун Т. Структура научных революций. – АСТ, 2009. – 320 с.

Дополнительная литература


  1. Новиков А.М., Новиков Д.А. Методология научного исследования. – М.: Либроком, 2010. – 280 с.

  2. The OpenScience Project (http://www.openscience.org)


Тема 2. Методология выбора, подготовки и защиты КР


Ознакомление с регламентом работы над междисциплинарной курсовой работой (КР) и Положением о курсовой работе/курсовом проекте студентов, обучающихся по программам подготовки бакалавров и специалистов, в Национальном исследовательском университете «Высшая школа экономики».

Методические рекомендации по написанию курсовой работы. Требования к КР. Процесс подготовки КР. Особенности защиты КР на 2 курсе бакалавриата и в дальнейшем. От КР к выпускной квалификационной работе (ВКР).

Дополнительное знакомство с основными научными направлениями в рамках концепции ОП Прикладной математики и информатики. Посещение обязательных научных мероприятий факультета/департамента.

Основная литература


  1. Сайт факультета компьютерных наук (http://cs.hse.ru)

  2. Положение о курсовой работе/курсовом проекте студентов, обучающихся по программам подготовки бакалавров и специалистов, в Национальном исследовательском университете «Высшая школа экономики» (http://www.hse.ru/docs/28971882.html)

Дополнительная литература


  1. Кузнецов И. Н. Научное исследование: Методика проведения и оформление. – 2-е изд. – М.: Дашков и Ко, 2006. – 460 с.

  2. Center for Open Science (http://centerforopenscience.org)


Тема 3. Технические и программные средства подготовки КР


Введение в систему подготовки текстов LaTeX. Основные дистрибутивы. Базовые возможности, работа со стилями, оформление математических формул. Вставка иллюстраций.

Работа с основными облачными сервисами Microsoft и Google, системами Microsoft OneNote и EverNote и другими коллаборативными технологиями.

Подготовка списка литературы с использованием библиографических менеджеров BibTeX, JabRef, Mendeley, Zotero и др.

Основы работы в Microsoft PowerPoint и пакете Biber для LaTeX. Подготовка 3-х слайдовой промежуточной презентации по итогам выбора тем и постановки задачи КР.

Оформление аннотации, общей концепции, плана и введения, списка литературы с помощью изученных программных средств.

Основная литература


  1. С.М. Львовский. Набор и верстка в системе LaTeX (http://www.mccme.ru/free-books/llang/newllang.pdf).

  2. Авторские материалы по подготовке презентаций.

  3. Оформление библиографии (http://www.academics.hse.ru/bibliography)

Дополнительная литература


  1. Колесникова Н.И. От конспекта к диссертации: Учебное пособие по развитию навыков письменной речи. – М.: Флинта: Наука, 2009. – 288 с.


Тема 4. Ведение научной дискуссии и участие в научных мероприятиях


Основы ведения научной дискуссии. Семинары и конференции.

Ключевые моменты подготовки выступления на научном мероприятии. Основные правила поведения на защите КР, вынесение результатов на защиту КР. Дистанционная защита КР.

Приобретение опыта выступлений и ведения дискуссий.

Рецензирование и исправление замечаний рецензента в онлайн-сервисе ShareLaTeX (www.sharelatex.com).


Основная литература


  1. Лакатос И. Избранные произведения по философии и методологии науки. – Академический проект, 2008. – 480 с.

Дополнительная литература


  1. Заметки к лекции Б.Г. Миркина «Структура научного доклада и основы научного обсуждения».

  2. Колесникова Н.И. От конспекта к диссертации: Учебное пособие по развитию навыков письменной речи. – М.: Флинта: Наука, 2009. – 288 с.

  3. Сайт EasyChair (http://www.easychair.org)


Тема 5. Анализ медицинских данных.


I. Что такое Медицинская Информатика и зачем она нужна? Образцы DICOM-снимков (в DICOM-формате).

II. Создание хорошего снимка. Сжатие с потерями. Прототип программы фильтрации, и снимки для неею

III. Computer-Aided Diagnostics. Автоматизированная диагностика на основе анализа изображений.

IV. Медицина на расстоянии

V.* Задачи оптимизации в медицине

Все материалы доступны и обновляются на сайте курса на странице автора.


Базовый учебник


Ридер, составленный по следующим источникам.

  1. Pianykh O. Digital Image Quality in Medicine. NY : Springer Verlag, 2013.

  2. Oglevee C., Pianykh O. Losing Images in Digital Radiology: More than You Think // Journal of Digital Imaging. 2014. P. 1-8.

  3. Stites, S., Pianykh, O.S. How Secure Is Your Radiology Department? Mapping Digital Radiology Adoption and Security Worldwide. American Journal of Roentgenology: 1-8. 10.2214/AJR.15.15283

Основная литература


  1. R.S.Ledley, L.B.Lusted, "Reasoning Foundation s of Medical Diagnosis”, Science, July 3 1959

  2. R.S.Ledley, "Digital Electronic Computers in Biomedical Science", Science, November 6 1959

  3. M.F. Collen, “Origins of medical informatics”, West. J. Med. 145 (1986) 778–785

  4. D.F. Sittig, J.S. Ash, R.S.Ledley, “The Story Behind the Development of the First Whole-body Computerized Tomography Scanner as Told by Robert S. Ledley”, Journal of the American Medical Informatics Association Volume 13 Number 5 Sep / Oct 2006

  5. M.J. Schuemie, J.L. Talmon, P.W. Moorman, J.A. Kors, Mapping the domain of medical informatics, Methods Inf. Med. 48 (2009) 76–83

  6. R. Haux, Medical informatics: Past, present, future, international journal of medical informatics 79 (2010) 599–610

Дополнительная литература


  1. J.P. DeShazo, D.L. LaVallie, F.M.Wolf, Publication trends in the medical informatics literature: 20 years of "Medical Informatics" in MeSH, BioMedCentral, Januaru 21, 2009.

  2. Bansard JY, Rebholz-Schuhmann D, Cameron G, Clark D, van Mulligen E, Beltrame E, Barbolla E, Martin-Sanchez Fdel H, Milanesi L, Tollis I, van der Lei J, Coatrieux JL, Medical informatics and bioinformatics: a bibliometric study, IEEE Trans Inf Technol Biomed. 2007 May;11(3):237-43. Review

Тема 6. Реализация методов обработки сигналов в задаче обратной связи


Оригинальный цикл лекций о направлении, находящемся на острие прогресса – Neuroscience.

Занятие 1. Обзор методов функциональной диагностики мозга (ФДМ)


Использование ФДМ в медицинской практике и исследованиях.

Понятие пространственного и временного разрешения.

Описание и сравнение методов ФДМ (ПЭТ, фЯМР, КТ, ЭМЭГ).

Занятие 2. Происхождение сигналов, регистрируемых методом электро и магнитоэнцефалографии


Природа электрических сигналов, регистрируемых ЭМЭГ.

Оборудование необходимое для проведения ЭМЭГ экспериментов.

Процесс измерения.

Сопоставление с анатомической информацией (ЯМР).

Основные экспериментальные парадигмы, в т.ч. парадигмы реального времени (нейрообратная связь и мозг-компьютерный интерфейс).

Наиболее частые ошибки, проблемы и их решения.


Занятие 3. Прямая задача в ЭМЭГ, методы моделирования ЭМЖЭГ данных


Аппроксимация, методы расчета прямой модели.

Модель наблюдения ЭМЭГ сигнала.


Занятие 4. Пространственная и временная фильтрация, удаление артефактов


Спектральное представление сигналов (Преобразование Фурье, Wavelet преобразование).

Временная фильтрация (КИХ, БИХ фильтры, фильтры в частотной и wavelet областях).

Пространственная фильтрация (метод главных компонент, метод независимых переменных).

Занятие 5. Обратная задача ЭМЭГ


Модель распределённого источника.

Байесовская формулировка обратной задачи.

Различные алгоритмы как следствие различных априорных предположений.

Описание различных алгоритмов метода наименьшей нормы (MN, WMN, FOCUSS, LORETA, GALA).


Занятие 6. Параметрический подход к решению обратной задачи


Дипольная модель.

Модель движущегося диполя.

Метод наименьших квадратов для подгонки модели.

Методы, использующие понятие подпространства сигнала (MUSIC, RAP-MUSIC).


Занятие 7. Парадигмы реального времени и методы обработки сигнала


Мозг-компьютерный интерфейс – классификация парадигм.

Методы обработки сигнала для извлечения признаков.

Методы классификации.

Основная литература


  1. Sanei S., Chambers J.A. Eeg Signal Processing. – Wiley, 2007. – 290 p.

  2. Neuroscience Online: An Electronic Textbook for the Neurosciences (http://neuroscience.uth.tmc.edu)

Дополнительная литература


  1. Ossadtchi A. Connectivity measures applied to human brain electrophysiological data // Journal of Neuroscience Methods, 207(1), 2012, pp. 1-16.


VI.Тематика заданий по формам текущего контроля

Оформление тезисов доклада на научной конференции


Тезисы объёмом не более 2 страниц, посвящённые решению конкретной задачи. Структура тезисов следующая.

  1. Актуальность и мотивация.

  2. Цель работы, постановка задачи и её обоснование .

  3. Основные методы решения и обоснование проектных решений.

  4. Главное отличие от ранее предлагавшихся решений.

  5. Результаты (включая теоретическую значимость, практическую полезность и апробацию).

  6. Варианты развития работы и планы на будущее.

  7. Уточнение содержания доклада на конференции.

Оформление списка использованных источников


При этом требуется:

  1. знание ГОСТ 7.1-2003 и структуры библиографического описания;

  2. знание ГОСТ 7.05-2008 и правильное формирование затекстовых ссылок;

  3. стилевых пакетов ugost2003, ugost2008s.

Оформление презентации доклада


Презентация на основе тезисов доклада на конференции.

Выступление на научном семинаре


Краткий рассказ по выбранной тематике исследований.

Вопросы к теоретическому экзамену (для тех, кто не сделал проект).

Методология операций с данными

Данные как объект исследования

Что такое данные

  1. Информация и данные

  2. Данные и алгоритмы

  3. Объём данных

  4. Задачи обработки данных

    1. Место анализа данных - в переработке данных

  1. Телекоммуникации

  2. Коллаборативные технологии

 

Характеристики данных

  1. Тип

  2. Формат

  3. Объём

  4. Источник

  5. Изменение

 

История вопроса

От вычислительных и логистических задач WW2 до Big Data и Data Science.



 

Форматы данных

  1. Standards, specifications and RFCs

    1. Main Data Types

      1. Common

        1. A Tutorial on Data Representation Integers, Floating-point Numbers, and Characters (https://www3.ntu.edu.sg/home/ehchua/programming/java/DataRepresentation.html)

      1. Strings

        1. UNICODE (http://www.unicode.org)

          1. ICU - International Components for Unicode (http://site.icu-project.org)

        1. ISO/IEC 10646:2014 Information technology - Universal Coded Character Set (UCS) (http://www.iso.org/iso/home/store/catalogue_ics/catalogue_detail_ics.htm?csnumber=63182)

          1. Specifies three encoding forms of the UCS: UTF-8, UTF-16, and UTF-32

      1. Date/Time

        1. ISO Time - ISO 8601:1988 "Data elements and interchange formats - Information interchange - Representation of dates and times" (http://www.iso.org/iso/ru/home/standards/iso8601.htm)

          1. Date and Time Formats (http://www.w3.org/TR/NOTE-datetime)

      1. Numbers

        1. Floating Point Number - IEEE 754 (http://grouper.ieee.org/groups/754)

    1. Data Serialization

      1. XML

        1. XML 1.0 - W3C Recommendation 2008-11-26 (http://www.w3.org/TR/REC-xml)

        2. W3Schools XML Tutorial (http://www.w3schools.com/xml)

        3. The Annotated XML 1.0 Specification 1998-02-10 (http://www.xml.com/axml/testaxml.htm)

        4. Namespaces in XML 1.0 (Third Edition) W3C Recommendation 2009-12-8 (http://www.w3.org/TR/REC-xml-names)

        5. Document Object Model (DOM) Level 2 Core Specification (Version 1.0) W3C Recommendation 2000-11-13 (http://www.w3.org/TR/DOM-Level-2-Core)

        6. Microsoft XML Standards Reference (https://msdn.microsoft.com/en-us/library/ms256177(v=vs.110).aspx)

 

  1. CSV

    1. [CSV] CSV – Comma Separated Values (http://data.okfn.org/doc/csv)

    2. [CSV] RFC 4180 - Common Format and MIME Type for Comma-Separated Values (CSV) Files (http://tools.ietf.org/html/rfc4180)

    3. [CSV] RFC 7111 - URI Fragment Identifiers for the text/csv Media Type (https://tools.ietf.org/html/rfc7111)

 

  1. JSON

    1. JSON - ECMA-404 (http://json.org , http://www.ecma-international.org/publications/files/ECMA-ST/ECMA-404.pdf)

    2. [JSON] JSON-LD 1.0 - A JSON-based Serialization for Linked Data - W3C Recommendation 16 January 2014 (http://www.w3.org/TR/json-ld/)

    3. [JSON] BSON (http://bsonspec.org/spec.html, http://bsonspec.org)

    4. [JSON] UBJSON ( http://en.wikipedia.org/wiki/UBJSON)

    5. [JSON] Hjson, the Human JSON (http://hjson.org)

    6. [JSON] JSON5 (http://json5.org)

    7. [JSON] JSON Schema (http://json-schema.org)

 

  1. ASN.1 (http://www.itu.int/en/ITU-T/asn1/Pages/asn1_project.aspx)

  2. MessagePack (http://msgpack.org)

  3. Configuration files

    1. INI Files

      1. Windows API GetPrivateProfileString function (https://msdn.microsoft.com/en-us/library/windows/desktop/ms724353.aspx)

      2. Cloanto Implementation of INI File Format (http://cloanto.com/specs/ini/)

      3. minIni (https://github.com/compuphase/minIni)

    1. TOML - Tom's Obvious, Minimal Language by Tom Preston-Werner (https://github.com/toml-lang/toml)

  1. [Additional info]

    1. How to Populate a Property Tree (http://www.boost.org/doc/libs/1_42_0/doc/html/boost_propertytree/parsers.html)

  1. Other formats

    1. Microformats 2 (http://microformats.org/wiki/microformats2)

  1. Guidelines and tutorials

    1. Web-services data serialization…

    2. MSDN - Introducing XML Serialization (https://msdn.microsoft.com/en-us/library/182eeyhh(v=vs.110).aspx)

 

 

Предобработка данных [ETL]

Extract Transform Load

 

Свойства данных, затрудняющие их анализ



  1. Гетерогенность источников. Необходимость работы с данными из различных источников с различными форматами и API.

  2. Big Data. Необходимость работы с данными больших объемов, что затрудняет задачи этапа ETL для последующей обработки и визуализации.

  3. Итеративность. Итеративность большинства методологий анализа и необходимость хранения промежуточных результатов анализа на каждом этапе.

  4. Синонимия. Существование множества названий для одного и того явления или понятия.

  5. Омонимия. Существование различных понятий с одним именем.

  1. Строгие ограничения на время для анализа данных.  Анализ данных представляет ценность при принятии решений. В связи с этим как правило существует ограничения на время для анализа данных.

 

Открытые данные [open data]

History of term

  1. History of the Open Definition started in 2005 (http://opendefinition.org/history)

  2. Memorandum for the Heads of Executive Departments and Agencies by Barak Obama in 2008: Transparency and Open Government,  (https://www.whitehouse.gov/the_press_office/TransparencyandOpenGovernment)

  3. On the stage of the 2009 TED conference, Sir Tim Berners-Lee, the inventor of the hypertext links and ultimately, of the Web, made the following rallying cry (for the supporters of data Web) or war cry (for data holders): “We want raw data, now!” (video: Tim Berners-Lee, TED, 2009 - http://www.dailymotion.com/video/x8omty_tim-berners-lee-the-next-web-of-ope_tech#.UVWqxhnGrJw)

  4. Early projects

    1. The Human Genome Project in the late 1990s and early 2000s which was fully open (http://www.sanger.ac.uk/about/history/hgp)

    2. In December 2002, Creative Commons released its first set of copyright licenses (https://creativecommons.org/about/history)

    1. Open Street Map, started in late 2004, perhaps the most successful community Open Data project to date (http://openstreetmap.org)

    1. The Open Knowledge Forums in London in 2005-2006 organized by the Open Knowledge Foundation which covered topics like open geodata and open civic information (http://okfn.org/events/okforums)

  1. Reviews

    1. Simon Chignard, A brief history of Open Data (http://www.paristechreview.com/2013/03/29/brief-history-open-data)

    2. Defining “Open” by DAVID on NOVEMBER 16, 2009 (http://opencontent.org/blog/archives/1123)

    3. Yong Shi, Big Data History, Current Status, and Challenges going Forward (https://www.nae.edu/Publications/Bridge/128772/129211.aspx)

 

Основные принципы использования открытых данных, принятые правительством США

Открытые данные должны удовлетворять требованиям:


  1. Публичности (Public)

Публикация открытых данных должна подразумевать согласие с законами о приватности, конфиденциальности и безопасности, а также соответствие другим правомерным ограничениям. [Open Government Directive, 8.12.2009, (http://www.whitehouse.gov/sites/default/files/omb/assets/memoranda_2010/m10-06.pdf)]

  1. Доступности (Accessible)

Открытые данные должны храниться в удобных открытых форматах, предполагающих простоту модификации (внесения изменений), индексации, поиска и скачивания (получения через глобальную сеть Интернет). Используемые форматы данных должны быть машинно-читаемыми, то есть позволяющими проводить полностью автоматическую обработку. Структура данных должна покрывать как можно более широкий спектр задач и возможных пользователей, что может потребовать предоставления открытых данных в различных форматах. Форматы в любом случае не должны накладывать каких-либо дополнительных ограничений на обработку данных, то есть быть открытыми, публично-доступными, не защищёнными патентами.

  1. Адекватности описания (полноты метаданных) (Described)

Открытые данные должны быть полностью описаны таким образом, чтобы пользователь имел достаточно полную информацию о том, как обрабатывать эти данные, об их сильных и слабых сторонах, ограничениях, требованиях безопасности. Это подразумевает наличие метаданных, описывающих тезаурус, структуру и отдельные поля данных, а также, по возможности, цели сбора данных, параметры генеральной совокупности и выборки, методы сбора данных.

  1. Разрешённости для повторного использования (Reusable)

Открытые данные должны предоставляться в соответствии с открытыми лицензиями, которые не ограничивают последующее использование данных.

  1. Полноты (Complete)

Открытые данные должны быть доступны в своей исходной форме с максимально возможным уровнем детализации, практически достижимым и не противоречащим требованиям законов и прочим ограничениям. Производные и агрегированные открытые данные должны явно ссылаться на исходные данных.

  1.  Актуальности (Timely)

Открытые данные должны обновляться с частотой, необходимой для сохранения непротиворечивости, согласованности и ценности данных. Частота обновления данных должна учитывать потребности в данных ключевой аудитории.

  1. Управляемости после публикации (Managed Post-Release)

Контактное лицо или организация должны предоставлять помощь по использованию данных и отвечать на жалобы о несоблюдении вышеприведённых свойств. A point of contact must be designated to assist with data use and to respond to complaints about adherence to these open data requirements.

 

4R Framework

Источник

The 4Rs Framework describes the four most important rights:



  1. Reuse – the right to reuse the content in its unaltered / verbatim form.

  2. Revise – the right to adapt, adjust, modify, or alter the content itself.

  3. Remix – the right to combine the original or revised content with other content to create something new.

  4. Redistribute – the right to make and share copies of the original content, your revisions, or your remixes with others.

 

Примеры открытых данных

  1. Open data 500 (http://www.opendata500.com)

  2. Ships (https://pendientedemigracion.ucm.es/info/cliwoc/)

  3. Live Ships Map - AIS - Vessel Traffic and Positions - AIS Marine Traffic (http://www.marinetraffic.com/)

  4. Flight Radar 24 (https://www.flightradar24.com)

  5. Cities

    1. OPEN DATA of Moscow City Government (http://data.mos.ru)

    2. NYC Open Data (https://nycopendata.socrata.com/dashboard)

    3. London DataStore (http://data.london.gov.uk)

Medical Data Analysis

  1. Which of the following text fragments is HL7?

    1. MSH|^~\&|ADT|N|ADT|MEDSC|200601081527

    2. Report


      PatientName.


Поделитесь с Вашими друзьями:


База данных защищена авторским правом ©nethash.ru 2017
обратиться к администрации

войти | регистрация
    Главная страница


загрузить материал