Интеллектуальный анализ данных и задача выявления плагиата
Факультативный курс
1. Понятие о Data Mining
1.1. Что такое Data Mining?
1.2. Типичные области применения Data Mining.
1.3. Смежные области компьютерной науки.
1.4. Темы для самостоятельных проектов.
2. Инструменты представления и визуализации
2.1. Графическое представление числовых данных: Excel, OLAP инструменты.2.2. Графическое представление сложных знаний (MindManager и другие инструменты).
3. Алгоритмы классификации и кластеризации
3.1. Задачи классификации и кластеризации
3.2. KNN-алгоритм классификации.
3.3. K-means алгоритм кластеризации.
3.4. Деревья альтернатив (decision trees).
3.5. Текстовый поиск.
4. Инструменты для Data Mining
4.1. Классическая статистика и поиск правил.
4.2. Инструменты для Data Mining (WEKA, WizWhy и другие).
5. Задача выявления плагиата
5.1. Online и offline-тестирование. Плагиат в статьях и в программных проектах.
5.2. Обзор существующих продуктов для выявления плагиата.
5.3. Сравнение качества программ для выявления плагиата; связь с Data Mining.
6. Плагиат в программных проектах
6.1. Специфика выявления плагиата в программных проектах.
6.2. Технологии токенизации.
6.3. Метрики и поиск подстрок.
6.4. Инструменты JPlag, MOSS и Sherlock.
6.5. Инструмент JavaPlagiarism.
6.6. Анализ скорости и качества работы детекторов плагиата.
Литература
- Jiawei Han, Micheline Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers, 2000.
- David Hand, Heikki Mannila, Padhraic Smyth. Principles of Data Mining. MIT Press, 2001.
- Ian H. Witten, Eibe Frank. Data Mining. Academic Press, 2000.
- В. Дюк, А. Самойленко. Data Mining: учебный курс. ИД "Питер", 2001.
- А. Барсегян и др. Методы и модели анализа данных: OLAP и Data Mining. БХВ-Петербург, 2004.
- M. S. Joy, M. Luck. Plagiarism in programming assignments. IEEE Transactions on Education, 42(2), 1999.
- L. Prechelt, G. Malpohl, M. Philippsen. JPlag: Finding plagiarisms among a set of programs. Technical report 2000-1, Fakultat fur Informatik, Universitat Karlsruhe, Germany, 2000.
- G. Whale. Software metrics and plagiarism detection. Journal of Systems and Software, 13, 1990.
- M. J. Wise. YAP3: Improved detection of similarities in computer program and other texts. SIGCSE Bulletin, vol. 28, 1996.