词频软件 python词频统计

公司动态

摘要：有没有可以推荐的中文和英文词频统计软件 1 先说中文词频统计，网上有不少半成品的软件或工具，如ROST系列ROSTCM6,ROST WordParser等，还有MyZiCiFreq及Excel版本的“...

发布日期：2020-11-13

词频软件

有没有可以推荐的中文和英文词频统计软件

1.先说中文词频统计，网上有不少半成品的软件或工具，如ROST系列ROSTCM6,ROST WordParser等，还有MyZiCiFreq及Excel版本的“词频分析工具@Excel大全”，除此之外其他免费的词频统计软件基本就是花瓶。

2.这些软件都可以在网上下载下来。

3.其中，Rostcm6功能强大，但可惜已经不再更新。

excel版本的词频统计功能简洁明了，容易上手。

4.由于目前这些免费的中文词频统计软件大都只能统计TXT文本文档，所以如果手头是PDF之类文件的话，需要先PDF转TXT，这时候需要一些工具或技巧，可以到百度经验中搜索具体办法。

我用的拼音加加3.11,一般说来,要取消词频调整,在“设置”去掉？ ...

#!/usr/bin/env python3#-*- coding:utf-8 -*-import os,random#假设要读取文件名为aa，位于当前路径filename="aa.txt"dirname=os.getcwd()f_n=os.path.join(dirname,filename)#注释掉的程序段，用于测试脚本，它生成20行数据，每行有1-20随机个数字，每个数字随机1-20"""test=""for i in range(20): for j in range(random.randint(1,20)): test+=str(random.randint(1,20))+" " test+="\n"with open(f_n,"w") as wf: wf.write(test)"""with open(f_n) as f: s=f.readlines（)#将每一行数据去掉首尾的空格和换行符，然后用空格分割，再组成一维列表words=[]for line in s: words.extend(line.strip().split（" ")）#格式化要输出的每行数据，首尾各占8位，中间占18位def geshi(a,b,c): return alignment(str(a))+alignment(str(b),18)+alignment(str(c))+"\n"#中英文混合对齐，参考http://bbs.fishc.com/thread-67465-1-1.html ，二楼#汉字与字母格式化占位 format对齐出错对不齐汉字对齐数字汉字对齐字母中文对齐英文#alignment函数用于英汉混合对齐、汉字英文对齐、汉英对齐、中英对齐def alignment(str1, space=8, align = "left"): length = len(str1.encode("gb2312")) space = space - length if space >=length else 0 if align in ["left","l","L","Left","LEFT"]: str1 = str1 + " " * space elif align in ["right","r","R","Right","RIGHT"]: str1 = " "* space +str1 elif align in ["center","c","C","Center","CENTER","centre"]: str1 = " " * (space //2) +str1 + " "* (space - space // 2) return str1w_s=geshi（"序号"，"词"，"频率"）#由（词，频率）元组构成列表，先按频率降序排序，再按词升序排序，多级排序，一组升，一组降，高级sortedwordcount=sorted([(w,words.count(w)) for w in set(words)],key=lambda l:(-l[1],l[0])）#要输出的数据，每一行由：序号（占8位）词（占20位）频率（占8位）+"\n"构成，序号=List.index(element)+1for (w,c) in wordcount: w_s+=geshi(wordcount.index((w,c))+1,w,c）#将统计结果写入文件ar.txt中writefile="ar.txt"w_n=os.path.join(dirname,writefile)with open(w_n,"w") as wf: wf.write(w_s)

你好,请问如何使用spss统计软件对一篇论文内的中文词语进行词频统...

电驴的下载和安装VeryCD 版 eMule 官方下载页面：随便选个镜像服务器下载最新版电骡。

（注意双击安装的可执行文件不是页面最下方的“C++源代码”）就像99%的Windows软件那样，一直“下一步”即可安装完成。

提示：在选择安装的组件时，可能包含第三方赞助厂商的捆绑软件，您可以根据自己需要选择安装或不安装。

选择下载后文件的存放位置在eMule运行窗口的顶部菜单内点击“选项”按钮，然后在左边的方框内选中“目录”，右侧就可以自定义文件存放的路径（文件夹）了。

如图：下载文件：eMule 会自动将完成下载的文件移动到这个目录；临时文件：正在下载的文件会被临时存放在这个目录下，文件名类似 rt、 t 等…… 提示：勾选的目录将不包括子目录。

若想一下子共享一个目录下的所有子目录，可按住 Control 键打勾，eMule 会自动将该目录下的所有目录都打上勾。

另外，您还可以勾选多个共享目录，与其他人分享这些资源。

当别人在 eMule 里搜索相关文件的名称时，有可能您的这些共享资源就会被找到哦 ^_^注意事项当 eMule 在共享目录内发现新的文件，或完成下载时，eMule 会 Hash 这些文件，此时您的硬盘可能持续保持读数据状态，系统变得很慢，鼠标不灵活，这些都是正常现象，无需担心。

时间由被 Hash 的文件的大小决定。

使用 eMule 下载1.通过 Web 寻找资源并下载——*推荐* 访问 VeryCD：，浏览网页，或通过页面上方的搜索栏寻找您想要的资源。

进入资源详细页面后，有如图所示方框：直接点击下载选中的文件，eMule 会自动添加所选择的文件。

或者您也可以逐一点击文件名下载。

2.通过 eMule 软件内的搜索功能，用电骡下载电影，你看一辈子电影都看不完。

我计算一下，假如你1分钟看1部（太夸张了吧），从出生开始一直活到100岁，每天不吃不喝直到看电影看死，总共可以看大概5000万多部电影。

而此时此刻我用电骡搜索到的可下载的文件数目超过9000多万个，如果10%是视频文件的话，也有900万部，这只是今天可以下载的数目。

人的岁数有限，而每时每刻又有源源不断的视频文件加入，显然你永远赶不上此发展的脚步。

搜索其实很简单，会用Google等搜索引擎，就应该会用电骡搜索，只不过一个是搜索网页，一个是搜索文件。

点“搜索”菜单，在“名字”里面输入关键字，“类别”可以选择任意（推荐方式）或者视频（无法搜索dat文件），“方法”最好选择“全局（服务器）”，然后点“开始”，你就会发现列出了n多可下载的符合你口味的视频文件。

最好选择“来源”多的片子，双击就可以下载了。

要保存搜索的文件信息，可以在搜索结果窗口里面，同时按Ctrl和A键全选，然后点鼠标右键，选择“复制ed2k链接到剪贴板”，最后剪贴到一个文件中保存即可。

其实有了电骡搜索，你基本都可以找到自己需要的片子，似乎可以完全抛弃此类的论坛。

但是本着“我为人人，人人为我”的原则，在论坛公布对大家都有好处。

因为虽然电骡搜索到片子很多，但是靠一个人的力量找到精品总没有众人的力量大吧。

用电骡搜索下载视频文件不难，难的是如何筛选。

茫茫草原，又有几棵灵芝草呢？另外好片下载的人越多，下载的速度也就越快啊！！！这里补充说明几点：你提交电骡共享的文件最好能提供一些可查询的特征字，这样别人只要输入里面任何一个字符或者字段就可以搜索到了；信息搜索的时候应全面，如分别用简体中文、繁体中文、英文查找，这样总可以找到你所需要的文件。

如果要查找某个演员出演的片子，最好也是用简体中文，繁体中文，英文分别检索，演员的英文名可以用Google检索查询。

若想检索到更多的文件信息，建议最好用英文查找，毕竟用电骡的还是以西方人居多。

选择“来源”数目多的文件下载，这样不会因为提供来源的某1人关机而使你就下载不了了；电骡是多点下载，不存在续传的问题，也就是登陆服务器中的任何一个人共享了此文件，都可以保证你能下载完全。

正确的电骡文件下载操作方法是：把论坛公布的文件下载ed2k链接中的文件名只是看成一个提供给你搜索关键字的素材。

自行搜索下载此文件，这样你就可以选择来源最多，容量最大的版本。

此法对于提高下载速度简单有效。

上一篇：备份软件对比电脑如何备份软件
下一篇：.vce转word pdf转vce