網(wǎng)站介紹 關(guān)于我們 聯(lián)系方式 友情鏈接 廣告業(yè)務(wù) 幫助信息
1998-2022 ChinaKaoyan.com Network Studio. All Rights Reserved. 滬ICP備12018245號(hào)
《數(shù)據(jù)挖掘綜合》考試大綱
第一部分:考試內(nèi)容及要求
一.數(shù)據(jù)挖掘概述
考試內(nèi)容
數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘的任務(wù)數(shù)據(jù)挖掘應(yīng)用數(shù)據(jù)挖掘的主要問(wèn)題
考試要求
1.了解數(shù)據(jù)庫(kù)系統(tǒng)技術(shù)的演變過(guò)程;理解數(shù)據(jù)挖掘的概念;掌握知識(shí)發(fā)現(xiàn)過(guò)程的7個(gè)步驟。
2.掌握數(shù)據(jù)挖掘要解決的問(wèn)題;掌握數(shù)據(jù)挖掘功能和模式;理解數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)的聯(lián)系和區(qū)別;了解數(shù)據(jù)挖掘的起源;掌握數(shù)據(jù)挖掘的任務(wù)。
二.數(shù)據(jù)
考試內(nèi)容
數(shù)據(jù)類型數(shù)據(jù)質(zhì)量數(shù)據(jù)預(yù)處理 相似性和相異性度量
考試要求
1.了解數(shù)據(jù)對(duì)象與屬性類型。
2.了解進(jìn)行數(shù)據(jù)預(yù)處理的原因及其重要性;了解數(shù)據(jù)質(zhì)量涉及的因素;掌握數(shù)據(jù)預(yù)處理的主要步驟。
3.了解數(shù)據(jù)清理的概念;了解處理數(shù)據(jù)缺失值的方法;了解處理噪音數(shù)據(jù)的方法。
4.理解數(shù)據(jù)預(yù)處理中的聚集、抽樣、特征子集選擇以及離散化和二元化等方法。
5.理解數(shù)據(jù)對(duì)象之間相似度;數(shù)據(jù)對(duì)象之間的相異度。
三. 分類和預(yù)測(cè)
考試內(nèi)容
數(shù)據(jù)分類和預(yù)測(cè)的概念判定樹歸類算法信息增益樹剪枝回歸分析分類法的準(zhǔn)確性組合分類器類不平衡問(wèn)題
考試要求
1.理解數(shù)據(jù)分類的概念;了解分類的兩個(gè)過(guò)程;理解監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的區(qū)別;了解分類和預(yù)測(cè)的數(shù)據(jù)預(yù)處理方法;掌握評(píng)估分類和預(yù)測(cè)方法的標(biāo)準(zhǔn)。
2.了解決策樹的概念和優(yōu)缺點(diǎn);了解決策樹歸分類的主要步驟;了解常用的屬性選擇度量,掌握信息增益度量的求法;理解兩種常用的樹剪枝方法。
3.掌握神經(jīng)網(wǎng)絡(luò)的分類與構(gòu)造原理
4.熟練掌握單層感知機(jī)原理與學(xué)習(xí)算法
5.掌握BP算法原理與學(xué)習(xí)過(guò)程
6.了解評(píng)估分類器性能的度量;了解評(píng)估分類和預(yù)測(cè)準(zhǔn)確率的方法(混淆矩陣、靈敏度和特小型、F度量)。
7.掌握Boosting算法的基本思想。
8.熟練掌握支持向量機(jī)SVM分類建模原理和計(jì)算方法。
9.了解組合分類器的概念和常用的組合分類方法;了解裝袋和提升的基本思想以及兩者的區(qū)別;了解隨機(jī)森林的基本思想。
10.了解類不平衡問(wèn)題的概念;了解提高類不平衡數(shù)據(jù)分類準(zhǔn)確率的一般方法。
四. 挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性
考試內(nèi)容
頻繁項(xiàng)集概念 頻繁項(xiàng)集挖掘方法 Apriori算法 FP-growth算法
考試要求
1.理解項(xiàng)集、閉項(xiàng)集、頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則的概念 ;了解規(guī)則興趣度的兩種度量(支持度和置信度)。
2.了解關(guān)聯(lián)規(guī)則挖掘的步驟。
3.了解Apriori算法的步驟;了解FP-growth算法的步驟和優(yōu)缺點(diǎn);掌握相關(guān)性度量提升度(lift)的計(jì)算方法。
五. 聚類分析
考試內(nèi)容
聚類分析的概念聚類方法的分類算法方法的距離度量劃分方法層次方法基于密度的方法基于網(wǎng)格的方法聚類評(píng)估
考試要求
1.理解聚類分析的概念;了解聚類分析的應(yīng)用領(lǐng)域;了解比較聚類方法的標(biāo)準(zhǔn);了解數(shù)據(jù)挖掘?qū)垲惖牡湫鸵?了解比較聚類方法的各個(gè)方面。
2.理解劃分方法的概念和一般特點(diǎn),以及典型算法;理解層次方法的概念和一般特點(diǎn),以及典型算法;理解基于密度的聚類方法的概念和一般特點(diǎn),以及典型算法;理解基于網(wǎng)格的聚類方法的概念和一般特點(diǎn),以及典型算法;
3.理解K-均值算法的步驟和優(yōu)缺點(diǎn);
4.了解算法方法的距離度量。
5.了解聚類評(píng)估概念和主要任務(wù);了解測(cè)定聚類質(zhì)量的方法。
第二部分:考試方法和考試時(shí)間
數(shù)據(jù)挖掘?qū)д摽荚嚥捎瞄]卷、筆試形式,考試時(shí)間為180分鐘。
第三部分:試卷結(jié)構(gòu)及參考書目
(一)題分:試卷滿分為150分
(二)題型比例:
選擇題與判斷題 約30%
簡(jiǎn)答題和計(jì)算題 約70%
(三)參考書目:
《數(shù)據(jù)挖掘?qū)д摗罚?美)陳封能,(美)斯坦巴赫,(美)庫(kù)瑪爾,人民郵電出版社,2011年。
來(lái)源未注明“中國(guó)考研網(wǎng)”的資訊、文章等均為轉(zhuǎn)載,本網(wǎng)站轉(zhuǎn)載出于傳遞更多信息之目的,并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,如涉及版權(quán)問(wèn)題,請(qǐng)聯(lián)系本站管理員予以更改或刪除。如其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)站下載使用,必須保留本網(wǎng)站注明的"稿件來(lái)源",并自負(fù)版權(quán)等法律責(zé)任。
來(lái)源注明“中國(guó)考研網(wǎng)”的文章,若需轉(zhuǎn)載請(qǐng)聯(lián)系管理員獲得相應(yīng)許可。
聯(lián)系方式:chinakaoyankefu@163.com
掃碼關(guān)注
了解考研最新消息
網(wǎng)站介紹 關(guān)于我們 聯(lián)系方式 友情鏈接 廣告業(yè)務(wù) 幫助信息
1998-2022 ChinaKaoyan.com Network Studio. All Rights Reserved. 滬ICP備12018245號(hào)