zhChinese    enEnglish
  ПМ-ПУ  » Образование  » Программы курсов » Интеллектуальный анализ данных

Интеллектуальный анализ данных и задача выявления плагиата

Факультативный курс

Лектор: Мозговой М.В.
Разработан в университете Joensuu, Финляндия.

1. Понятие о Data Mining

1.1. Что такое Data Mining?
1.2. Типичные области применения Data Mining.
1.3. Смежные области компьютерной науки.
1.4. Темы для самостоятельных проектов.

2. Инструменты представления и визуализации

2.1. Графическое представление числовых данных: Excel, OLAP инструменты.
2.2. Графическое представление сложных знаний (MindManager и другие инструменты).

3. Алгоритмы классификации и кластеризации

3.1. Задачи классификации и кластеризации
3.2. KNN-алгоритм классификации.
3.3. K-means алгоритм кластеризации.
3.4. Деревья альтернатив (decision trees).
3.5. Текстовый поиск.

4. Инструменты для Data Mining

4.1. Классическая статистика и поиск правил.
4.2. Инструменты для Data Mining (WEKA, WizWhy и другие).

5. Задача выявления плагиата

5.1. Online и offline-тестирование. Плагиат в статьях и в программных проектах.
5.2. Обзор существующих продуктов для выявления плагиата.
5.3. Сравнение качества программ для выявления плагиата; связь с Data Mining.

6. Плагиат в программных проектах

6.1. Специфика выявления плагиата в программных проектах.
6.2. Технологии токенизации.
6.3. Метрики и поиск подстрок.
6.4. Инструменты JPlag, MOSS и Sherlock.
6.5. Инструмент JavaPlagiarism.
6.6. Анализ скорости и качества работы детекторов плагиата.

Литература

  1. Jiawei Han, Micheline Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers, 2000.
  2. David Hand, Heikki Mannila, Padhraic Smyth. Principles of Data Mining. MIT Press, 2001.
  3. Ian H. Witten, Eibe Frank. Data Mining. Academic Press, 2000.
  4. В. Дюк, А. Самойленко. Data Mining: учебный курс. ИД "Питер", 2001.
  5. А. Барсегян и др. Методы и модели анализа данных: OLAP и Data Mining. БХВ-Петербург, 2004.
  6. M. S. Joy, M. Luck. Plagiarism in programming assignments. IEEE Transactions on Education, 42(2), 1999.
  7. L. Prechelt, G. Malpohl, M. Philippsen. JPlag: Finding plagiarisms among a set of programs. Technical report 2000-1, Fakultat fur Informatik, Universitat Karlsruhe, Germany, 2000.
  8. G. Whale. Software metrics and plagiarism detection. Journal of Systems and Software, 13, 1990.
  9. M. J. Wise. YAP3: Improved detection of similarities in computer program and other texts. SIGCSE Bulletin, vol. 28, 1996.