Python中文词云是一种基于Python语言编程的中文文本可视化技术,通过中文分词、停用词过滤等技术处理文本数据,并结合可视化工具如wordcloud等,将文本中出现频率较高的关键词以可视化的方式呈现出来,从而辅助人们快速理解和分析中文文本数据。
一、词云
1、提出者
“词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)于近日提出。戈登做过编辑、记者,曾担任迈阿密先驱报(Miami Herald)新媒体版的主任。
2、应用
1)教育
教育工作者可以利用Wordle工具,以加强学习。
2)文化
在小说阅读中,词云图会提示关键词和主题索引。方便用户在互联网上快速阅读。在娱乐中,变幻莫测的词云图给用户提供充分的想象空间和娱乐趣味。
3)计算机软件
在词云制作方面开发出软件,方便用户使用。
二、python中文词云
python是一种面向对象、直译式计算机程序设计语言。也是一种功能强大而完善的通用型语言,已经具有十多年的发展历史,成熟且稳定。Python 具有脚本语言中最丰富和强大的类库,足以支持绝大多数日常应用。 Python语法简捷而清晰,具有丰富和强大的类库。它常被昵称为胶水语言,它能够很轻松的把用其他语言制作的各种模块(尤其是C/C++)轻松地联结在一起。
特点:
(1)简单易学
python是一种代表简单主义思想的语言。阅读一个良好的python程序就感觉像是在读英语一样。python的这种伪代码本质是它最大的优点之一。它使你能够专注于解决问题而不是去搞明白语言本身。
(2)速度快
python 的底层是用 C 语言写的,很多标准库和第三方库也都是用 C 写的,运行速度非常快。
(3)免费开源
python是FLOSS(自由/开放源码软件)之一。用户可以自由地发布这个软件的拷贝、阅读它的源代码、对它做改动、把它的一部分用于新的自由软件中。
(4)可移植性
由于它的开源本质,python已经被移植在许多平台上(经过改动使它能够工作在不同平台上)。
(5)解释性
python语言写的程序不需要编译成二进制代码,可以直接从源代码运行程序。用户只需要把python程序拷贝到另外一台计算机上,它就可以工作。
(6)面向对象
python即支持面向过程的编程也支持面向对象的编程。在“面向过程”的语言中,程序是由过程或仅仅是可重用代码的函数构建起来的。在“面向对象”的语言中,程序是由数据和功能组合而成的对象构建起来的。
(7)可扩展性、可嵌入性
用户的部分程序可以用C或C++编写,然后在python程序中使用它们。也可把python嵌入到C/C++程序,从而向程序用户提供脚本功能。
(8)丰富的库
python标准库包括正则表达式、文档生成、单元测试、线程、数据库、网页浏览器、CGI、FTP、电子邮件、XML、XML-RPC、HTML、WAV文件、密码系统、GUI(图形用户界面)、Tk和其他与系统有关的操作。高质量的库包括wxpython、Twisted和python图像库等等。
(9)规范的代码
python采用强制缩进的方式使得代码具有较好可读性。而python语言写的程序不需要编译成二进制代码。
三、制作词云
1、下载安装python
2、安装python运行环境
3、确定词云分析的对象
4、输入全部指令并进行词云分析
5、词云生成成功