在一个文本文件中的单词统计频率并打印前十个-FreeNAS中文网

admin 管理员组

文章数量: 887007

在一个文本文件中的单词统计频率并打印前十个

设计分析：

遇到这样一个程序设计，首先解决的是文件读入的问题（我选择读入txt）；

第二，英文文章中由英文字母，标点符号，其他字符组成，要将他们分离，这就用到了词法分析，将每个单词分离出来并且分析；

第三，统计单词个数（不一样的单词各有几个），排序，输出频率最高的10个。

要解决的是文件读取后储存问题，就是放在结构体中，单词的种类和数量统计起来。可以用结构体数组，可以用链表。

统计后排序的问题，如果将整个结构体或链表排序，那将是一件好大的工程，但是题目只是将频率最高的10个词打印出来，就像每天人们听歌，排行榜上的第一页是用户听得最多的歌曲。于是，我只是初始化了一个结构体数组，长度为10，将10个排序，然后用最后一个，也就是这10个中频率最小的与其他的比较，如果有频率比他高的，则插入到这个长度为10 的结构体数组中。插入之后还是顺序的。这样就节省了很多的工作量。

数据结构：

储存单词的数据结构：

①结构体

typedef struct
{
char danci[19];//储存单词
int count;//记录单词个数,后面出现几次
}sq;

②链表

struct Word

{
char danci[19];
int count;
struct Word *next;
};

找出频率最高的十个单词

for(i=10;i<n;i++)
{
if(frequency_max[9].count<word[i].count)
{
   int a=8;
   while(frequency_max[a].count<word[i].count&&a>=0)
   {
    a--;
   }

   for(j=9;j>a+1;j--)
   {
    frequency_max[j]=frequency_max[j-1];
   }
   if(a<0)
     frequency_max[0]=word[i];
   else
    frequency_max[j]=word[i];
}
}

代码：

#define _CRT_SECURE_NO_DEPRECATE
#define _CRT_SECURE_NO_WARNINGS
#include<iostream>
#include<iomanip>
#include<time.h>
using namespace std;
#define M 20000
//文章单词个数

typedef struct
{
char danci[19];//储存单词
int count;//记录单词个数,后面出现几次
}sq;

void main()
{
double start, finish;
start = (double)clock();
sq word[M];
sq t_word;
double s, f;
int K, n = 0, i, j;
char infile[10];
s = (double)clock();
cout << "***********请输入文件路径:***********" << endl;
cin >> infile;//文件路径输入
f = (double)clock();//
cout << "输入文件路径的时间:" << (f - s) / 1000 << "s" << endl;

FILE *fp;
char ch;
//fp=fopen("d:\pro.txt","r");
if ((fp = fopen(infile, "r")) == NULL)
{
  cout << "无法打开文件！" << endl;
  exit(0);
}
s = (double)clock();
while (!feof(fp))
{
  ch = getc(fp);
  if (ch == ' ' || ch == 10)
  {//虑空
   continue;
  }
  if ((ch >= 'a'&&ch <= 'z') || (ch >= 'A'&&ch <= 'Z'))              //发现一个单词
  {
   K = 0;
   t_word.count = 1;
   while ((ch >= 'a'&&ch <= 'z') || (ch >= 'A'&&ch <= 'Z') || (ch == '\''))
   {
    if (ch >= 'A'&&ch <= 'Z')
     ch += 32;//转换成小写
    t_word.danci[K++] = ch;
    ch = getc(fp);
   }
   t_word.danci[K++] = '\0';

//一个单词结束
j = n;

   for (i = 0; i<j; i++) //与前面的单词比较
   {
    if (strcmp(t_word.danci, word[i].danci) == 0)
    {
     word[i].count++;
     break;
    }

}

   if (n == 0 || i == j)
   {
    word[n] = t_word;
    n++;
   }

}
}
f = (double)clock();
cout << "读文件,分出单词并统计的时间:" << (f - s) / 1000 << "s" << endl;

s = (double)clock();
//输出频率最高的十个单词
sq frequency_max[10];
sq temp;
for (i = 0; i<10; i++)
{
frequency_max[i] = word[i];//初始化频率最高的十个单词为前十个单词
}
//前十个排序

for (j = 0; j<10; j++)
for (i = 0; i<10 - j; i++)
if (frequency_max[i].count<frequency_max[i + 1].count)
{
  temp = frequency_max[i];
  frequency_max[i] = frequency_max[i + 1];
  frequency_max[i + 1] = temp;
}
for (i = 10; i<n; i++)
{
  if (frequency_max[9].count<word[i].count)
  {
   int a = 8;
   while (frequency_max[a].count<word[i].count&&a >= 0)
   {
    a--;
   }

   for (j = 9; j>a + 1; j--)
   {
    frequency_max[j] = frequency_max[j - 1];
   }
   if (a<0)
    frequency_max[0] = word[i];
   else
    frequency_max[j] = word[i];
  }
}
f = (double)clock();
cout << "搜索频率最高的10个单词的时间:" << (f - s) << "ms" << endl;
for (i = 1; i<11; i++)
{
  cout << setiosflags(ios::left) << setw(10) << frequency_max[i].danci << frequency_max[i].count << endl;
}
finish = (double)clock();
cout << "总运行时间:" << (finish - start) / 1000 << "s" << endl;
getchar();
}

运行截图：

总结：

我发现时间主要花费在文件的io上，由上面截图可以看出链表的效率更低，排序的时间非常少，几乎可以忽略不计。IO由于是与硬件之间的操作，所以花费时间比较多，链表由于需要地址操作，效率也没有数组高。

本文标签：在一个文本文件中的单词统计频率并打印前十个

版权声明：本文标题：在一个文本文件中的单词统计频率并打印前十个内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1732354849h1534138.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

技术交流 – FreeNAS中文网

在一个文本文件中的单词统计频率并打印前十个

在一个文本文件中的单词统计频率并打印前十个

更多相关文章

在一个文本文件中的单词统计频率并打印前十个

发表评论

推荐文章

tkinter 小工具监听json

视频转码软件使用手册

edge不能打开html网页,Win10系统edge浏览器无法打开网页的解决方法

windows 安装Chocolatey

Apple Mobile Device Driver （windows 10）

热门文章

vmware一开机就蓝屏_电脑蓝屏除了重装系统，这样做更快速

2024年最佳电脑系统推荐：高效、精简、易安装的优选之选

西门子WinCC开发笔记（一）：winCC西门子组态软件介绍、安装

矩阵游戏

python画横向柱状图

容器——ConcurrentHashMap的底层实现原理

怀着十分悲痛的心情沉痛哀悼那我误充的100元

windows11下载GCC编译器

windows如何解决端口被占用的问题

计算机怎样格式u盘,win10系统电脑怎么操作把u盘格式化为fat32格式？

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

win7计算机管理中看不到新加的硬盘,win7系统看不到第二块硬盘的解决方法.

[转]笔记本电脑处理器(CPU)性能排行榜

project安装包的下载和安装教程

测试模式 windows2008 内部版本7601

如何区分自己的windows系统是正版还是盗版？从零基础到精通，收藏这篇就够了！

技术交流 – FreeNAS中文网

在一个文本文件中的单词统计频率并打印前十个

在一个文本文件中的单词统计频率并打印前十个

更多相关文章

在一个文本文件中的单词统计频率并打印前十个

发表评论

推荐文章

tkinter 小工具监听json

视频转码软件使用手册

edge不能打开html网页,Win10系统edge浏览器无法打开网页的解决方法

windows 安装Chocolatey

Apple Mobile Device Driver （windows 10）

热门文章

vmware一开机就蓝屏_电脑蓝屏除了重装系统，这样做更快速

2024年最佳电脑系统推荐：高效、精简、易安装的优选之选

西门子WinCC开发笔记（一）：winCC西门子组态软件介绍、安装

矩阵游戏

python画横向柱状图

容器——ConcurrentHashMap的底层实现原理

怀着十分悲痛的心情沉痛哀悼那我误充的100元

windows11下载GCC编译器

windows如何解决端口被占用的问题

计算机怎样格式u盘,win10系统电脑怎么操作把u盘格式化为fat32格式？

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

win7计算机管理中看不到新加的硬盘,win7系统看不到第二块硬盘的解决方法.

[转]笔记本电脑处理器(CPU)性能排行榜

project安装包的下载和安装教程

测试模式 windows2008 内部版本7601

如何区分自己的windows系统是正版还是盗版 ？从零基础到精通，收藏这篇就够了！

如何区分自己的windows系统是正版还是盗版？从零基础到精通，收藏这篇就够了！