首页
学习
活动
专区
圈层
工具
发布

Python热文Top10,精选自1000篇文章

▌No.3 使用 Python 提取超级马里奥背景元素 这篇文章在 reddit 编程板块发布的第一天被顶了 970 次,引发了 49 次跟帖讨论,非常值得一读。...文章主要介绍了在不使用计算式视觉技术的条件下如何提取超级马里奥游戏中每一阶段的背景图像上的元素,并附有详细的源码解析和接口介绍,是一篇非常“硬核”的博文。...▌No.7 Python,SciPy 和 NumPy 的数据科学及线性代数基础 这篇文章通过浅显易懂的语言为读者介绍了在数据科学入门过程中涉及到的一些线性代数和统计学的知识,以及如何用 SciPy...PyFPDF 和 Python 创建 PDF 这篇教程详细介绍了如何使用 PyFPDF 和 Python 创建 PDF,并提供了详细的代码解析。...如果你有用 python 生成 PDF 的打算,这篇文章非常值得一读。该系列的第二篇文章介绍了使用 pdfrw 生成 PDF 的方法。

76660

超全必读!事件抽取综述(上)

事件抽取可处理各种类型的文本,如(在线)新闻消息、博客和手稿。本文献回顾了用于各种事件抽取目的的文本挖掘技术。它提供了关于如何根据用户、可用内容和使用场景选择特定事件抽取技术的一般指南。...A Survey of Textual Event Extraction from Social Networks, 2017[4] 过去的十年中,在社交网络上挖掘文本内容以抽取相关数据和有用的知识已成为无所不在的任务...因此,总结了文本数据的事件抽取技术,划分成数据驱动、知识驱动和混合方法三类,并对这些方法进行了定性评价。此外,还讨论了从文本语料库中抽取事件的常见决策支持应用。...数据集 英文数据集 ACE2005 English Corpus[6] ACE 2005多语种训练语料库包含了用于2005年自动内容抽取(ACE)技术评价的完整的英语、阿拉伯语和汉语训练数据集。...KBP包括为KBP开发特定组件和功能的组件跟踪,以及称为“冷启动”的端到端KB构建任务,该任务通过在技术成熟时集成选定的组件从头开始构建KB。

4.6K21
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    斯坦福的Stanford.NLP.NET:集合多个NLP工具

    在纯文本的基础上,你可以使用仅仅两行代码来运行整个工具。它的分析为更高级别和特定领域的文本理解应用提供了基础。...两者都可以作为性能良好的统计解析系统使用。在解析器中,有一个 GUI(Java)可用于查看解析器的短语结构树输出。 该解析器不仅有英文版本,还适用于一些其他语言。...完整版下载包含三个训练过的英语标签器模型,一个阿拉伯语标签器模型,一个汉语标签器模型,和一个德语标签器模型。两种版本都包括相同的源代码和其它必需的文件。...The Stanford Word Segmenter(斯坦福词汇分割器)现在支持阿拉伯语和中文。它所提供的分割方法已经在大量应用中广泛应用,并且表现不俗。...例如,如果你使用了 Stanford NLP 网站中的 Stanford CoreNLP 3.3.1 版,在 NuGet 中,它的版本为 3.3.1.x 版,其中 x 只对应 NuGet,该位数字被用作标记

    2.1K80

    跨境电商干货|我如何用 ElasticSearch + OpenAI Embedding 搭了个多语言搜索推荐系统

    你知道跨境电商做推荐和搜索最麻烦的是啥吗?不是性能,不是并发,不是接口,而是:语言不通。...而 OpenAI 的 text-embedding-3-small 模型,可以把任意语言的文本(不管是德语、印地语、阿拉伯语)都变成一个多维度语义向量。这样,不同语言但语义相近的内容,距离就近了。...三、商品库 Embedding 构建(核心)步骤:商品标题 + 类目 + 标签组合成文本;使用 OpenAI 接口调用 embedding;存入 ES 的 dense_vector 字段。....], "k": 10, "num_candidates": 100}ES 会返回语义上最相近的商品,不管它们的标题是中文、英文还是泰文。...这种“混合搜索 + 语义 rerank”的方式,效果非常好:实测数据:平均点击率 CTR 提升 21.7%多语言用户(非英文)召回率提升 38%用户停留时间提高 12% 优化建议 & 实战坑点embedding

    48600

    Github Star 11.5K项目再发版:AAAI 2021 顶会论文开源,80+多语言模型全新升级

    ,在精度可比的基础上,与先前的SOTA算法相比,经过飞桨预测引擎加速和后处理优化后,预测效率翻倍。...多语言支持种类提升至80+种:基本覆盖国际主流语言种类,在开源测试集MLT2017评估,中文、韩文、日文、拉丁语系、阿拉伯语系,识别效果均显著优于EasyOCR,开源SOTA效果。...在动态图模式下,代码编写运行方式符合Python程序员的习惯,易于调试,但在性能方面, Python执行开销较大,与C++有一定差距。 相比动态图,静态图在部署方面更具有性能的优势。...飞桨动态图中新增了动态图转静态图的功能,支持用户使用动态图编写组网代码。预测部署时,飞桨会对用户代码进行分析,自动转换为静态图网络结构,兼顾了动态图易用性和静态图部署性能两方面优势。...值得一提的是,目前已经有全球开发者通过PR或者issue的方式为PaddleOCR提供多语言的字典和语料,在PaddleOCR上已经完成了全球80+ 主流语言的广泛覆盖:包括中文简体、中文繁体、英文、法文

    1.7K20

    ONLYOFFICE 8.2深度评测:性能卓越与高效协作的完美融合

    在本文中,我将详细分享我在使用ONLYOFFICE 8.2版本过程中的真实体验和感悟。新版本不仅新增了多项实用功能,还对现有功能进行了深度优化,解决了之前版本中的一些痛点和不足。...这一功能的推出将极大提升团队在处理PDF文档时的工作效率,尤其是在合同、报告和手册等需要多人共同审阅的文档上,协作编辑的优势更加明显。...这一功能极大地简化了文档的管理和恢复流程,让你在协作编辑时可以更安心、更高效,避免了因误删而带来的麻烦。 从第三方来源插入文本 在现代文档协作和编辑中,快速导入外部数据是提高效率的一个重要因素。...这项功能的加入使得使用阿拉伯语的用户能够更加高效地进行文档编辑,特别是在处理多层级编号时。...通过在快速访问菜单中使用新的编号预设,用户可以轻松地设置和调整文档中的编号格式,以适应阿拉伯语的语言习惯和文化需求。

    70010

    Python自然语言处理工具小结

    适合用来进行信息检索和提取,问题处理,回答问题等任务。从英文文本中,它能提取出主动宾元组,形容词、名词和动词短语,人名、地名、事件,日期和时间,等语义信息。...简单的示例程序:Stanford POS Tagger : 采用Java编写的面向英文、中文、法语、阿拉伯语、德语的命名实体识别工具。...下载安装包后解压后,内容如下图所示: 在使用时将fudannlp.jar以及lib中的jar部署于项目中的lib里面。...中存放着源码;PDF文档中有着比较详细的介绍和自然语言处理基础知识的讲解。...初始运行程序时初始化时间有点长,并且加载模型时占用内存较大。在进行语法分析时感觉分析的结果不是很准确。

    1.6K70

    浅析法语OCR的技术难点及其应用场景

    在全球化和数字化加速发展的背景下,法语作为全球29个国家的官方语言(如法国、加拿大、瑞士及部分非洲国家),其文本的数字化需求日益增长。...文本检测与定位使用深度学习模型(如CNN、YOLO、EAST)检测图像中的文本区域,区分文字、表格和背景。...输出结构化数据(如Excel表格)或可编辑文本(如Word、PDF)。法语OCR技术的功能特点高精度识别:支持印刷体、手写体(需专项训练)及复杂版式(表格、多栏文本、中法文混排)。...语言适配:针对法语特殊符号、连字(如“æ”)和重音符号优化,识别率可达95%以上。多格式输出:生成可编辑的文本(TXT、DOCX)、结构化数据(Excel)或搜索友好的PDF。...特殊字符与多语言混合法语常与英语、阿拉伯语等混排(如北非法语文件),需支持多语言切换识别。低质量图像识别老旧文档、模糊照片或低分辨率扫描件影响识别精度。

    21010

    资源 | 斯坦福大学发布Stanford.NLP.NET:集合多个NLP工具

    在纯文本的基础上,你可以使用仅仅两行代码来运行整个工具。它的分析为更高级别和特定领域的文本理解应用提供了基础。...两者都可以作为性能良好的统计解析系统使用。在解析器中,有一个 GUI(Java)可用于查看解析器的短语结构树输出。 该解析器不仅有英文版本,还适用于一些其他语言。...完整版下载包含三个训练过的英语标签器模型,一个阿拉伯语标签器模型,一个汉语标签器模型,和一个德语标签器模型。两种版本都包括相同的源代码和其它必需的文件。...The Stanford Word Segmenter(斯坦福词汇分割器)现在支持阿拉伯语和中文。它所提供的分割方法已经在大量应用中广泛应用,并且表现不俗。...例如,如果你使用了 Stanford NLP 网站中的 Stanford CoreNLP 3.3.1 版,在 NuGet 中,它的版本为 3.3.1.x 版,其中 x 只对应 NuGet,该位数字被用作标记

    1.9K60

    深入解析 Monkey OCR:本地化、多语言文本识别的利器与实践指南

    依赖项 (通常已包含在预编译包中,编译时才需特别注意): Python (>=3.8): Monkey OCR 核心逻辑通常用 Python 编写。...--force-ocr: 即使输入是 PDF 也强制进行 OCR (而不是尝试提取原生文本)。 --extract-images: (处理 PDF 时) 先将 PDF 每一页转换为图片再识别。...对于扫描版 PDF 是必须的;对于文本型 PDF,如果原生文本提取失败或需要 OCR 图片内容,也需使用。...内存占用: 处理高分辨率图片或大 PDF 文件时,内存 (RAM) 消耗可能较高,尤其是在 GPU 模式下(显存和内存都可能吃紧)。...我们分享了在实际应用中遇到的挑战(如语言指定、PDF 处理、GPU 加速配置)和宝贵的经验(预处理、后处理、批量脚本)。性能对比也清晰地展示了其在速度和精度上的优势。

    2.3K10

    浅析阿拉伯语OCR的技术壁垒及其原理

    阿拉伯语作为全球超 4 亿人使用的语言,承载着丰富的历史文化与现代信息,但其独特的书写系统和语言结构,使得阿拉伯语OCR技术面临着与其他语言截然不同的挑战与机遇。...阿拉伯语OCR的独特技术壁垒阿拉伯语书写系统堪称世界上最复杂的文字体系之一,其OCR处理面临四大核心挑战:连字迷宫:28个基本字母衍生出112种形态变化,字母根据在词中的位置(词首、词中、词尾)呈现完全不同的字形...例如字母"ح"在词首写作"حـ",在词中为"ـحـ",词尾则为"ـح"。声符迷阵:8种基本变音符号(如َ ِ ُ)可组合出数十种发音标记,这些微小符号的缺失或误识别会彻底改变词义。...多语言混合识别阿拉伯语-英语双语混合识别阿拉伯语OCR技术的应用场景1....文化遗产数字化古代手稿保存:将珍贵的阿拉伯语手稿数字化历史文献研究:帮助学者搜索和分析古籍内容宗教文本处理:精确识别和标注古兰经等宗教文献2.

    29510

    GPT学术优化 (GPT Academic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合+GPT等等

    文件,并提取摘要和翻译 crazy_functions\代码重写为全英文_多线程.py 将Python源代码文件中的中文内容转化为英文 crazy_functions\图片生成.py 根据激励文本使用...库来提取PDF文档的文本内容,对每个PDF文件分别进行处理并生成中英文摘要。...函数中使用了多线程处理输入和输出,并且将结果写入到文件中。...程序启动时需要加载ChatGLM的模型和tokenizer,需要一段时间。在配置文件config.py中设置参数会影响模型的内存和显存使用,因此程序可能会导致低配计算机卡死。...文件名 功能简述 代码重写为全英文_多线程.py 将Python源代码文件中的中文内容转化为英文 图片生成.py 根据激励文本使用GPT模型生成相应的图像 对话历史存档.py 将每次对话记录写入Markdown

    3.8K30

    Flutter 国际化支持多语言

    我在 assets/translations 目录下创建了两个 JSON 文件:en.json(英文)和 zh.json(中文)。...定义默认语言(英文),以防某些翻译缺失。 在 MaterialApp 中启用本地化代理和支持的语言。 运行应用后,我发现界面上的文本会根据设备语言自动切换。...使用翻译管理工具 如果语言多了,可以试试 Phrase,它能简化翻译流程。 测试多语言 在模拟器上切换不同语言,检查文本是否溢出或布局是否异常。...支持动态内容 对于占位符或复数,使用 easy_localization 的 .tr() 和 .plural() 方法。...现在,我的应用已经支持中文和英文,未来我还计划加西班牙语和阿拉伯语,让它真正“全球化”。 如果你也想让你的 Flutter 应用支持多语言,我强烈推荐试试 easy_localization。

    83710

    语音助手阿拉伯语本地化技术解析

    语音助手阿拉伯语本地化技术解析阿拉伯语版语音助手于2021年12月在沙特阿拉伯和阿联酋推出。与所有新语言版本一样,阿拉伯语在语音识别、语言理解和语音合成方面提出了独特挑战。...核心技术架构新语言模型包含三大核心组件:自动语音识别(ASR):将语音转换为文本自然语言理解(NLU):解析文本以执行操作文本转语音(TTS):将NLU输出转换为合成语音ASR模块技术实现阿拉伯语书写时通常省略短元音...,类似将英文单词"begin"写作"bgn"。...团队从英语声学模型开始,使用目标海湾方言的阿拉伯语公共数据集和Cleo技能收集的数据进行训练。...模型训练采用基于BERT的语言模型,使用未标注数据和标准语言建模目标进行预训练。随后在标注的法语和英语数据上进行微调,最后在所有三种语言的标注数据上再次微调以确保性能平衡。

    46110

    Alexa阿拉伯语技术实现解析

    阿拉伯语Alexa的技术挑战阿拉伯语版Alexa于2021年12月在沙特阿拉伯和阿联酋上线,其开发面临独特挑战:需同时支持现代标准阿拉伯语(MSA)和海湾方言(Khaleeji)。...用户日常使用方言更自然,因此技术团队决定让Alexa能理解并混合输出两种语言形式——MSA用于信息类回复,Khaleeji用于非正式交互。...核心技术组件自动语音识别(ASR) 将语音转为文本时面临阿拉伯语字符标注难题:书面阿拉伯语常省略短元音(如"bgn"替代"begin")。...采用三语模型(阿拉伯语/法语/英语),通过英语和法语数据增强训练,并设计复杂度指标优化模板采样数量。...TTS标注器主要训练于MSA文本,辅以团队自建方言数据集。 未来方向技术团队将持续扩展阿拉伯语支持至更多地区,并探索跨语系的技术迁移方案。

    33410

    【Science】无监督式机器翻译,不需要人类干预和平行文本

    “想象一下,你给一个人很多中文书籍和大量的阿拉伯语书籍,这些书之间没有重叠,但这个人必须学会把中文翻译成阿拉伯语。这似乎是不可能的,对吧?”...如果只是在两种常见的语言,比如英语和法语的翻译中使用这一技术,效果还是不错的,因为许多文档都以这两种语言存在。但是,对于罕见的语言或者那些虽然常见,但是缺乏平行语料库的语言来说,它的运行就不是很好。...这两篇使用非常相似的方法的新论文也可以在句子层面进行翻译。它们都使用两种训练策略,称为反向翻译和去噪(Back translation and Denoising)。...谷歌翻译使用有监督的方法,在同类测试上的得分是40多左右,人类水平是50分左右。但是,这些方法都比词对词的翻译要好。...除了能够在没有多个平行文本的语言之间进行翻译之外,Artetxe和Lample都表示,如果平行文本都是同一类型,比如新闻报道,那么它们的系统可以帮助像英文和法文这样常见的配对,但是您想要翻译新的领域的文本

    78690

    Python办公自动化 | word 文本转 excel

    近日有工作上的需求,需要梳理数据元目录中的多个数据项,数据项条目可能达到1000多个,可以说这个工作量非常巨大,源文件是 word 版本的,无法进行筛选和标记(即使用颜色或者字体去标记之后,每次也需要肉眼去看某一项到底有没有梳理过...),如果是 excel 版本就不一样了,已梳理和未梳理的可以很简单的完成分类,并且和其他文件进行比对,用以核实是否已经梳理过。...问题来了:如何进行 word 文本转 excel? word 版本文件是这样的: 可以看出,文件具有4层目录,每一个数据项又包含了定义、英文缩写、数据格式、说明等内容。...pdfplumber 读取成功并写入txt 最后,我又发现了 pdfplumber 他可以完美解析中文,太棒了 查看 page_text 数据类型,发现是 str ,就是返回的全部的文本内容,是一个很长很长的字符串...\tmp.txt") file = f.readlines() 使用正则表达式识别文本、OrderedDict封装文本 定义正则表达式 pattern 这里定义多个 pattern 表达式用于识别标题和文本内容

    1.4K20

    还在花钱转语音?10,000+ star 开源「ebook2audiobook」白嫖1107种语言!免费文字秒变多语言音频!

    章节并生成对应音频片段导航清晰,支持 m4b 弹跳多 TTS 引擎支持XTTSv2、Bark、Fairseq、Piper、Tacotron2、YourTTS 等可根据语言及场景选最优模型1107+ 语言包括中文、阿拉伯语...、章节、作者等信息专业听书体验Colab / HF Spaces 等支持免费资源运行与演示云端体验快人一步技术架构预处理:Calibre 抽取文本并自动分章;合成层:用户选择 TTS 引擎,可选个人语音...使用示例一、Web GUI 使用方法git clone https://github.com/DrewThomasson/ebook2audiobookcd ebook2audiobookpip install...应用场景上班族/学生:通勤时听电子书,缓解眼疲劳;语言学习者:反复听目标语言版本,提高语感;内容创作者:制作有声版文章,用自定义声音输出;视障人士:将生活必读材料转为听书,增进信息获取;知识付费补充:文字教学课稿自动朗读...低门槛部署、高度可定制、适合多场景使用。无论是自用听书,还是内容创作转音频,它都能解放你的双眼、释放你的时间。

    1.2K00
    领券