当前位置：首页 > news >正文

软工个人项目作业

news 2025/9/16 18:29:12

这个作业属于哪个课程	https://edu.cnblogs.com/campus/gdgy/Class34Grade23ComputerScience
这个作业要求在哪里	https://edu.cnblogs.com/campus/gdgy/Class34Grade23ComputerScience/homework/13477
这个作业的目标	制作论文查重工具

论文查重工具项目文档

项目概述

本项目是一个基于Python的论文查重工具，通过文本相似度计算来检测论文中的重复内容。

技术选型

Python 3.8+
jieba (中文分词)
scikit-learn (文本向量化)
Flask (Web框架)
Bootstrap (前端框架)

功能特性

支持多种文档格式上传 (txt, docx, pdf)
中文文本智能分词
TF-IDF向量化文本特征
余弦相似度计算
直观的相似度结果展示
Web界面操作

项目结构

paper_checker/
├── app.py              # Flask主应用
├── checker.py          # 核心查重算法
├── templates/          # HTML模板
│   ├── index.html     # 主页面
│   └── result.html    # 结果页面
├── static/            # 静态资源
│   └── style.css      # 样式文件
├── uploads/           # 上传文件目录
└── requirements.txt   # 依赖包列表

安装部署

克隆项目到本地
创建虚拟环境: python -m venv venv
激活虚拟环境: source venv/bin/activate
安装依赖: pip install -r requirements.txt
运行应用: python app.py

使用说明

访问Web界面
上传待检测文档
选择对比文档库
点击开始检测
查看相似度结果

核心算法

查重算法基于以下步骤：

文档预处理和分词
TF-IDF特征提取
文档向量化
余弦相似度计算
相似度阈值判定

测试结果

经过多轮测试，系统能够有效识别：

文本直接复制 (相似度>90%)
句式改写 (相似度60-80%)
同义词替换 (相似度40-60%)

未来改进

增加更多文档格式支持
优化算法精度
添加批量检测功能
集成更多相似度算法

总结与反思

本项目通过实际开发加深了对文本处理和机器学习算法的理解，同时提升了Web开发和项目管理能力。

github连接：：https://github.com/IrErV123/PlagiarismDetection/blob/main

http://www.wxhsa.cn/company.asp?id=5837

相关文章：

异地办公文件同步，多台设备如何无缝同步最新教程

详细介绍：【系统分析师】2025年上半年真题：论文及解题思路

表格如何设置多人在线编辑？坚果云实时编辑，告别版本冲突！

白嫖党狂喜！爆肝一下午搞定 URL 转 HTML 幻灯片神器，ISlide 9900 资源点从此是路人

Codeforces 2144E2 Looking at Towers (difficult version) 题解 [ 蓝 ] [ 线性 DP ] [ 树状数组 ]

实战有效的Web时序攻击技术剖析

22222222 - idle

我们究竟在用钱交换什么？

jupyterLab如何使用

HyperWorks许可监控

C++拷贝构造函数详解：从浅拷贝到深拷贝

C#第十二天 025

选择语句的机器级表示

pip常用命令

我的大学规划

深入解析：numpy学习笔记

理解 Linux 系统中的熵（Entropy）

Nginx auth_request 模块使用

用nssm将minio和srs注册成服务

Mac上的Markdown学习

ubuntu 18.04安装mysql8.4.5

Radxa E20C 安装 OpenWrt

第三篇：配置浏览器

第二篇：playwright初步解析