跳转至

数据挖掘

22Fall MANA130374,数据挖掘原理与技术,王有为

主讲处理大数据的各类算法。

主要内容

  • 大数据背景
  • 各类数据形式
  • 探索性数据分析
    • 统计量
    • 可视化
  • 分类算法
    • 分类任务指标
    • Decision Tree
    • Naive Bayes and Bayesian Belief Networks
    • Artificial Neural Networks
    • Nearest Neighbor
    • Logistic Regression
    • Support Vector Machines
    • CART(Classification and Regression Trees)
    • Random Forest
  • 聚类算法
    • 相似性度量
    • K-means Clustering
    • Hierarchical Clustering
    • Graph-based or Prototype-based or Density-based Clustering
  • 关联规则挖掘
    • 量化指标
    • Apriori Algorithm
    • FP-growth Algorithm

参考书

Pang-Ning Tan, Michael Steinbach, Anuj Karpatne, Vipin Kumar. Introduction to Data Mining. Addison Wesley, 2nd edition (Oct, 2019).

体会

我必须打开可能才能想起来这个课讲了啥,甚至有些内容我打开了课件也回忆不起来。

总体来说内容不是很多,分类、聚类、关联规则就这三块内容。但是每块内容涉及到的算法非常多,属于是走马观花,我基本都没学会。到头还还是只会SVM、KNN、随机森林啥的。

关联规则挖掘倒是让我记忆犹新,Diapers和Beer的神奇组合确实很有记忆点,至于关联规则到底如何挖掘我实在是记不得了,只能当调包调参侠了。


最后更新: 2024-03-14 00:26:13
创建日期: 2024-03-12 17:41:11

评论