Python自动化:批量提取PDF指定文本,几秒省去几周工

我是智能取经人 2024-07-05 07:57:52

摘要: 面对成百上千的PDF文档,手动搜索提取特定文本内容无疑是一项耗时且枯燥的工作。本文将向你展示如何利用Python自动化技术,通过编写一个简单的脚本,快速批量提取PDF文档中的指定内容,将你从繁琐的手动操作中解放出来,大幅提升工作效率。

央企招标的挑战

在数字化办公日益普及的今天,处理大量PDF文档成为了许多人日常工作的一部分。无论是法律文件、研究报告还是技术文档,快速准确地从这些文档中提取特定文本内容是一项重要但挑战性的任务。特别是当这些任务需要每周重复执行时,其工作量可想而知。

央企朋友负责一项AIGC相关项目的招标工作,面对众多竞标者提交的专业文件,他和领导团队感到难以抉择。

创新的解决方案

在这种情况下,朋友想到了一个独特的解决方案。由于他一直在研究AIGC领域,并且通过微信接收了大量相关研究报告,他意识到这些报告的发布机构可能是评估竞标者实力的关键。如果能够统计出每个机构发布的AIGC研究报告数量,这将是一个重要的参考指标。这些PDF文档中都有文字“资料来源”,“数据来源”和“来源”等字样指明这篇文档的作者机构。比如:

数据来源:CSDN、浙商证券研究所

数据来源:CSDN、arXiv、浙商证券研究所 数据来源:秘塔AI搜索官网,Similarweb,Epic Connector,东吴证券研究所 来源:Github,《面向深度学习的多模态融合技术研究综述》,《Make-a-video: text-to-video generation without text-video data》,浙商证券研究所

手工完成成百上千个pdf文档的这些信息需要几个周的时间,python自动化办公几秒钟轻松搞定。

实现步骤确定研究关键词:包括“资料来源”、“数据来源”和“来源”。自动化搜索PDF文档:遍历微信缓存文件夹中的所有PDF文件。文本内容提取与分析:提取每份文档中的来源信息,并统计每个机构的报告数量。报告生成:将统计结果整理成报告,辅助招标决策。核心代码实现import osimport pdfplumberfrom collections import Counter# 定义关键词和文件夹路径keywords = ["资料来源", "数据来源", "来源"]wechat_cache_folder = '微信缓冲文件保存路径'# 初始化统计器source_counter = Counter()# 遍历文件夹中的所有PDF文件for root, dirs, files in os.walk(wechat_cache_folder): for file in files: if file.endswith('.pdf'): file_path = os.path.join(root, file) print(file_path) try: with pdfplumber.open(file_path) as pdf: for page in pdf.pages: text = page.extract_text() for keyword in keywords: if keyword in text: # 提取来源信息 source_info = text.split( keyword)[1].strip().split(',')[0] source_counter[source_info] += 1 except Exception as e: print(f"处理文件{filename}时发生错误:{e}")# 输出统计结果for source, count in source_counter.items(): print(f"机构 {source} 发布研究报告数量:{count}")结果展示

通过Python脚本的运行,朋友成功统计了每个竞标者发布的AIGC研究报告数量,并将这些数据整理成报告,为招标决策提供了有力的数据支撑。

结语:数据驱动的决策

在这个案例中,Python自动化技术不仅提高了工作效率,更通过数据分析为决策提供了科学依据。随着AI技术的不断进步,我们可以预见,数据驱动的决策将在更多领域发挥重要作用。

你在决策过程中使用过哪些技术工具?在评论区留言,分享你的经验,让我们一起探讨如何用技术提升决策质量!

在文章的最后,别忘了点赞、分享和关注哦!如果你有任何关于Python自动化办公的问题或想法,欢迎在评论区留言,让我们一起交流,共同进步!

1 阅读:229

我是智能取经人

简介:感谢大家的关注