可以自己尝试写一个分布式的kmeans,也可以部署spark,使用spark-mllib里面的kmeans如果对python比较熟悉,可以使用pyspark的mllib如果只是hadoop,找找mahout算法包