数据挖掘里面最简单的算法是什么

如题所述

鄙人认为k-means算法不怎么难,不论是一维的还是二维的,用c或c++实现都不十分复杂,这方面的代码也很多。

算法描述:
K均值聚类算法:
给定类的个数K,将N个对象分到K个类中去,
使得类内对象之间的相似性最大,而类之间的相似性最小。

基本算法的步骤:
输入:k, data[n];
(1) 选择k个初始中心点,例如c[0]=data[0],…c[k-1]=data[k-1];
(2) 对于data[0]….data[n], 分别与c[0]…c[n-1]比较,假定与c[i]差值最少,就标记为i;
(3) 对于所有标记为i点,重新计算c[i]={ 所有标记为i的data[j]之和}/标记为i的个数;
(4) 重复(2)(3),直到所有c[i]值的变化小于给定阈值或者前后两次的中心不再发生变化。
温馨提示:答案为网友推荐,仅供参考