python使用mongo的mapreduce实现简单的统计和group by操作_python

python使用mongo的mapreduce实现简单的统计和group by操作，mapreduce的效率还是非常高的，替代sql里面的group by

mongo里面的数据是这样的：
doc1 = {
“freq”:1
…..
}
doc2 = {
“freq”:3
…..
}
要求是统计出freq=1的文档个数，freq=2的文档的个数。。。
典型的mapreduce任务，正好试试mongo的mapreduce。
感觉还行，做一些简单的聚集操作还凑活，看看回头有没有更复杂一些的应用。

#!/usr/bin/env&nbsppython
import&nbsppymongo
from&nbspbson.code&nbspimport&nbspCode
&nbsp
def&nbspcalc_freq_distribution(collection_handler):
&nbsp&nbsp&nbsp&nbspout_collection_name&nbsp=&nbspcollection_handler.name+’_freqdist’
&nbsp&nbsp&nbsp&nbspmap&nbsp=&nbspCode(“function&nbsp()&nbsp{”
&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp”emit(this.freq,&nbsp{count:1});”
&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp”}”)
&nbsp
&nbsp&nbsp&nbsp&nbspreduce&nbsp=&nbspCode(“function&nbsp(key,&nbspvalues)&nbsp{”
&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp”&nbsp&nbspvar&nbsptotal&nbsp=”
&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp”&nbsp&nbspfor&nbsp(var&nbspi&nbsp=&nbspi&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp”&nbsp&nbsp&nbsp&nbsptotal&nbsp+=&nbspvalues[i].count;”
&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp”&nbsp&nbsp}”
&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp”&nbsp&nbspreturn&nbsp{count:total};”
&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp”}”)
&nbsp&nbsp&nbsp&nbspresult&nbsp=&nbspcollection_handler.map_reduce(map,&nbspreduce,&nbspout&nbsp=&nbspout_collection_name)
&nbsp&nbsp&nbsp&nbspfname&nbsp=&nbspout_collection_name+’.csv’
&nbsp&nbsp&nbsp&nbspwith&nbspopen(fname,&nbsp’w’)&nbspas&nbspf:
&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbspfor&nbspdoc&nbspin&nbspresult.find():
&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbspf.write(‘,’.join([str(doc[‘_id’]),&nbspstr(doc[‘value’][‘count’])])+’\n’)
&nbsp
if&nbsp__name__&nbsp==&nbsp’__main__’:
&nbsp&nbsp&nbsp&nbspconn&nbsp=&nbsppymongo.Connection([‘192.168.1.1’],&nbsp27018)
&nbsp&nbsp&nbsp&nbspinput_collection=&nbspconn.cname.things
&nbsp&nbsp&nbsp&nbspprint&nbspcalc_freq_distribution(merge_spam)
&nbsp
&nbsp&nbsp&nbsp&nbspmerge_ham&nbsp=&nbspconn.antispam.mergeham
&nbsp&nbsp&nbsp&nbspprint&nbspcalc_freq_distribution(merge_ham)

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31