关于大数据HashMap统计查询query问题



  • 请教下大家如果有300w个query查询,如果我需要找到最top的10个查询的话我用hashmap来统计,hashmap的原理是不是把300w %1000 先切分成n块,然后统计各个快出现频率最多的一个query,如果hash做的话原理是不是 如果有两个相同query的话hash就重复了,用separate chain 来做把重复的排到后面就好了,这样就是照出冲突最多的10个hash就是我们需要的结果了是吗? 希望有懂的同学帮忙解答下,谢谢了.



  • 如果只是300W个查询,其实很小的。你可以估算一下存储这300W个查询所需要的storage。

    另外,有个小窍诀,一般10^6左右的范围都是单机能搞定的



  • @fennec 如果hash做的话原理是不是 如果有两个相同query的话hash就重复了,用separate chain 来做把重复的排到后面就好了,这样就是照出冲突最多的10个hash就是我们需要的结果了是吗?

    还是直接用key-value来 把每个query当作一个key,然后重复次数当中value来做呢


登录后回复
 

与 BitTiger Community 的连接断开,我们正在尝试重连,请耐心等待