Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【技术创作101训练营】我是如何使用freemarker生成Word文件的?

【技术创作101训练营】我是如何使用freemarker生成Word文件的?

作者头像
程序员小明
修改于 2020-09-23 13:38:16
修改于 2020-09-23 13:38:16
2.4K00
代码可运行
举报
文章被收录于专栏:程序员小明程序员小明
运行总次数:0
代码可运行

背景

一天,产品经理递给我了一份word报告,我定睛一看

这个文档有大大小小的标题层级,还有排版好的段落、各种一目了然的饼图、走势图,当然还少不了颜色循环交替的报表。精致程度不亚于小明同学的学习报告。

准备

通过某歌搜索关键词:java+word+导出,我立马得出了很多成熟的方案,通过横向、纵向比较,再结合本次报告样式比较多、用户可灵活选择不同模块导出的特点,最终,我决定使用Freemarker 动态替换模版数据来导出word文档。至于导出文档的最终格式,有两种选择:

那到底使用doc还是docx格式的文档?

每当人生当中每次面临选择我都很慎重。最终我选择使用docx格式(原因文末会讲),但是为了让大家有更多的选择,满足更多的业务场景,借此机会,小明会分别给大家介绍使用freemarker导出word文档两种格式的方式。

思路

FreeMarker是一个基于Java的模板引擎,最初专注于使用MVC软件架构生成动态网页。但是,它是一个通用的模板引擎,不依赖于servlets或HTTP或HTML,因此它通常还用于生成源代码,配置文件或电子邮件。

此时,我们用它动态生成xml文件,进而导出word文档。

整体流程如下:

准备

  • WPS

由金山软件股份有限公司发布,用于办公软件最常用的文字编辑、表格、演示稿等功能。

对,就是这个国产的办公软件。除了它强制登录以外,我也是第一次发现在导出文档这件事上,它如多年好友般友好。(word解析后的xml文件阅读性很强,一般人我不告诉他)

  • 开发工具(IDEA、Visual Studio Code等) 你喜欢的,顺手的,就是最好的。

实现

集成Freemarker模版引擎

本次项目使用的框架依旧是Springboot,这个框架在集成各个组件表现都很便捷,不再赘述,这次集成Freemarker也不例外。

  • 首先我们在项目中增添依赖spring-boot-starter-freemarkerpom.xml文件如下所示:
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<dependency>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-freemarker</artifactId>
</dependency>
  • 按照默认约定,我们可以在resources下创建一个templates文件夹(查看FreeMarkerProperties源码可以发现默认目录就是这个),用于存放模版文档。
  • application.yml增加配置
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
spring:
  freemarker:
    template-loader-path: classpath:/templates
    cache: false # 开发环境缓存关闭
    suffix: xml
    charset: UTF-8

生成doc格式的文档

这里先拿使用freemarker导出doc格式的word文档举例。

  • 首先将docxTemplate.docx(调整好样式的模版文档)另存为WORD 2003 XML文档(*.xml)

注意:如果你使用的是Visual Studio Code开发工具,一定要检查你所使用的xml格式化插件,是否会优化你的xml标签 。比如:<w:rPr>会变成<rPr>。使用Visual Studio Code的同学,oh my god ! 小明在这里推荐大家使用这个插件:XML Language Support by Red Hat

  • 现在,我们就使用freemarker语法编辑docTemplete.xml,比如使用占位符${}替换当前文档中的文本,以达到动态生成文本的目的,直接上代码。
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
public static Configuration getConfiguration(){
        //创建配置实例
        Configuration configuration = new Configuration(Configuration.VERSION_2_3_28);
        //设置编码
        configuration.setDefaultEncoding("utf-8");
        configuration.setClassForTemplateLoading(WordUtil.class, "/templates");
        return configuration;
}

    /**
     * 生成doc文件
     *
     * @param ftlFileName 模板ftl文件的名称
     * @param params      动态传入的数据参数
     * @param outFilePath 生成的最终doc文件的保存完整路径
     */
    public void ftlToDoc(String ftlFileName, Map params, String outFilePath) {
        try {
            /** 加载模板文件 **/
            Template template = configuration.getTemplate(ftlFileName);
            /** 指定输出word文件的路径 **/
            File docFile = new File(outFilePath);
            FileOutputStream fos = new FileOutputStream(docFile);
            Writer bufferedWriter = new BufferedWriter(new OutputStreamWriter(fos, "utf-8"), 10240);
            template.process(params, bufferedWriter);
            if (bufferedWriter != null) {
                bufferedWriter.close();
            }
        } catch (TemplateException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

生成docx格式的文档

高能预警! 在成功使用Freemarker动态导出doc格式的文档之后,相信大家和我的心情一样非常激动。但以上操作只是一个小铺垫,接下来我们来看看如何实现docx格式的文档导出,小明相信一定会让各位看官大跌眼镜!不,大开眼界!首先,告诉大家一个秘密:docx格式的文档其实是一个ZIP格式的压缩文件哦! 什么?你不信?验证如下:

  • windows的小伙伴 将docx文档修改为ZIP格式(修改.docx后缀名为.zip),然后通过解压工具解压。
  • MacOS的小伙伴 直接使用unzip命令解压word文档,解压过后我们会发现该文档其实还有自己的目录结构
  • document.xml文件用于存放核心数据,文字,表格,图片引用等
  • media目录用于存放所有文档的图片
  • _rels目录下的document.xml.rels里存放的是配置信息,比如图片引用关系,即在document.xml中引用id对应media中的哪个图片。
  • 获取zip里的document.xml文档以及_rels文件夹下的document.xml.rels文档
  • 显而易见,如果我们要想根据数据动态导出不同的word文档,只需要:通过freemarker将本次数据填充到document.xml中,并将图片配置信息填充至document.xml.rels文档里,再用文件流把本次图片写入到media目录下替换已经存在的图片,最后把填充过内容的document.xml、document.xml.rels以及media用流的方式写入zip即可输出docx文档!上代码。

好吧,限于篇幅,代码见文末 Github地址

问题及解决方案

当然,大家在第一次尝试去干某一件事时,都不一定是一蹴而就的。就比如在导出word时,就可能会遇到以下问题。

特殊字符

问题:有些文本数据中难免含有特殊字符,如:< > @ ! $ & 等等。

解决方案:这些特殊字符如果不进行转义,就会引起word打不开的现象,比如表格中的超链接的&符号,就需要替换为&amp;,如果你的文档用office打开时提示文件损坏,九成是因为特殊符号引起的,我们可以打开documet.xml定位报错位置;当然还有终极方案,我们可以利用Freemarker的语法直接在模板中使用<![CDATA[ ]]> 处理。比如:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 <w:t><![CDATA[ ${article.title} ]]></w:t>

图片变形

问题:因为echarts生成的图表是响应式的,不同的屏幕大小、分辨率,会造成每次前端传过来的图片宽高比例不一致,如果还直接将图片按照之前的比例放进文档,会造成生成后文档中的图片变形。

思路:首先将文档中的图片设置为原图,然后锁定宽高比,将图片调整到合适大小,解压文档从document.xml,得到此时word中该图片宽高对应的值,如下所示:

要想保证不同像素比例的宽高在文档中不变形,我们需要固定cy的值,然后根据固定比例动态求得当前像素比例图片在word中代表的宽cx的值。计算方法如下所示:公式:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
a/b = x/y

其中,a表示图片在word中宽的数值,b代表图片在word中高的数值,x表示前端传过来图片的宽(单位:像素),y表示前端传过来图片的高(单位:像素)。因此,已知b、x、y,根据公式,我们即可求出a;

我就是文末

当然,还有用一些其他注意事项:

  • 如果word中的模块比较多的话,使用Freemarker语法要仔细一点;
  • 为什么小明最终选择导出docx格式的文档呢?(还不是因为产品经理提的需求嘛)因为doc格式的文档,小明尝试导出后,发现该文档并不是一个合法的doc文档,体现在:不能在手机上(微信、钉钉)正常预览,office提示以xml形式打开等。因此在导出doc文档时,通过Freemaker填充document.xml后得到的并不是一个合法的word文档,查了相关资料,还需要借助第三方工具进行签名,而签名还需要在windows系统下才能完成,但是我们平时用的生产环境都是Linux……因此,考虑再三,再三权衡,最终选择导出docx格式的文档。这种方式再适合不过,而且还能保证在当前主流APP上都能正常预览。
  • 敲黑板!导出docx文档最重要的一个思想是将本次数据写入并覆盖模版文件(在商业中,相当于借壳上市),重新输出一个zip格式压缩的文件,这个文件就是我们最终想要的文档。

以上,就是小明本次word导出的前前后后,现在已经在线上平稳运行数十个日夜。如果你也曾经遇到过或者现在正好遇到word文档导出开发的问题,欢迎一起讨论交流。

相关链接

我上传了工具类,包含doc、docx 的导出,以及导出word文档时特殊符号转义,还有图片Base64转换成文件输出的方法。

GitHub地址:https://github.com/WhenCoding/coder-xiaoming/blob/master/src/main/java/com/xm/coder/util/WordUtil.java

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-09-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序员小明 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Java技术:SpringBoot集成FreeMarker生成word文件
今天给大家分享SpringBoot集成FreeMarker模板引擎生成word文件的用法,感兴趣的可以学一下,完整源码地址在文章末尾处,欢迎互相沟通交流!
小明互联网技术分享社区
2022/05/24
2.1K0
Java技术:SpringBoot集成FreeMarker生成word文件
Python提取docx文档中嵌入式图片和浮动图片的又一种方法
昨天推送了使用docx2python扩展库提取文档中图片的文章之后,经网友perfect提醒,实际上使用python-docx这个扩展库也可以提取浮动图片,并给出了参考代码。经过分析和测试,确实可以,然后根据分析我把perfect朋友给出的代码又简化改进了一下,思路如下:
Python小屋屋主
2019/11/28
2.9K0
利用XML和ZIP格式解析漏洞实现RCE
在参与某个众测项目过程中我遇到了一个Web应用,它可以执行某种通用文件类型的处理,这里我们暂且把该种文件类型称为.xyz吧,通过Google查找,我发现这种.xyz文件类型其实就是包含了XML和其它多媒体内容的ZIP打包文件,其中的XML文件相当于一个清单,用于描述包内内容。
FB客服
2020/04/18
1.4K0
python之python-docx编辑和读取word文档
如果是想读取其中的图片或是更复杂地编辑,首先我们需要先来认识下docx文档的格式组成:
菲宇
2019/06/13
3.6K0
python之python-docx编辑和读取word文档
java 导出数据为word文档(保持模板格式)
①:设计好word文档格式,需要用数据填充的地方用便于识别的长字符串替换  如  aaaaaaaaaaaaaaaa
肖哥哥
2019/02/22
4.7K0
java实现html转word_javaweb与html区别
前段时间在做html生成word功能,找了好几种方案,有的用jacob,但是这个比较麻烦,又是dll又是jar的,依赖太多了,而且代码量比较多,所有以采用了freemarker来生成word,制作一个模板就可以生成word文档了,生成的图片也不会依赖本地路径。此功能需要freemarker的jar包,这个大家可以自行下载 制作模板,打开word,制作报告的样式,然后另存为xml格式,最好是2003格式的xml,不然会出现不兼容的现象。完成之后修改为ftl格式的文件。下面就开始我们的编码。 //转化word的一个工具类: package com.HtmlToword.util;
全栈程序员站长
2022/11/07
1.1K0
在前端如何玩转 Word 文档
在日常工作中,大部分人都会使用 Microsoft Office Word、WPS 或 macOS Pages 等文字处理程序进行 Word 文档处理。除了使用上述的文字处理程序之外,对于 Word 文档来说,还有其他的处理方式么?答案是有的。
lucifer210
2020/07/21
5.6K0
在前端如何玩转 Word 文档
使用xdocreport导出word饼图
这个模板的文字都不重要因为后面会把这些文字都替换掉,输入文字之后按住Ctrl+F9变成编辑域,然后右键编辑域我这里用的WPS编辑模板
Java king
2023/02/21
2K0
干货 | 红队和漏洞挖掘中那些关于"文档"的妙用(下)
一个比较新的攻击点,它的攻击场景其实不算常见,如果有某些站点允许上传PDF、能在线解析PDF并且用户能够在线浏览该PDF文件,就有可能存在PDF XSS攻击,要实现这个攻击,我们需要制作一个恶意PDF文件,方法如下:
HACK学习
2022/05/23
2.2K0
干货 | 红队和漏洞挖掘中那些关于"文档"的妙用(下)
没想到word,excel和ppt还有这个妙用,涨姿势了
之前分享过分享几个有趣实用的冷知识,涨姿势了 ,今天再整理几个关于excel,word,ppt的冷知识,打工人用起来。
苏生不惑
2024/02/22
1850
没想到word,excel和ppt还有这个妙用,涨姿势了
python自动化高效办公第二期,带你项目实战【一】{excel数据处理、批量化生成word模板、pdf和ppt等自动化操作}
我们在读取文件的时候,excel的列是字母我们不容易直观看出来是第几列,下面对excel进行设置。
汀丶人工智能
2022/12/21
3K0
python自动化高效办公第二期,带你项目实战【一】{excel数据处理、批量化生成word模板、pdf和ppt等自动化操作}
[PYTHON] 自动化办公03 python内置xml包处理docx和xlsx文档
由于 环境不支持连接外网, 无第三方包. 那些好用的word处理包都无法使用, 难度一下子就上来了..... 好歹有python3 (py2的话,难度更上一层楼.)
大大刺猬
2024/03/28
7860
[PYTHON] 自动化办公03  python内置xml包处理docx和xlsx文档
爬虫系列:读取 CSV、PDF、Word 文档
上一期我们讲解了使用 Python 读取文档编码的相关问题,本期我们讲解使用 Python 处理 CSV、PDF、Word 文档相关内容。
太后
2022/01/12
3.2K0
2018年10月7日虚拟机出现无法连接MKS错误提示和docx, rtf类型文件简介
在VMware中打开虚拟机时报错: “无法连接MKS:套接字连接尝试次数太多,正在放弃”
武军超
2019/02/25
8650
Java使用FreeMarker模版技术动态生成word实践
在日常开发中,常常有动态word文件生成的需求,通过编制模版,然后动态修改word内容以组合成新的文件。报告单、请假单、发票页等都可以使用动态生成word来解决。
赛先生和泰先生
2022/06/14
2.3K0
Java使用FreeMarker模版技术动态生成word实践
6步速通:修复损坏的word文件
打开文件的时候花了较长时间,并且显示了乱码,并且老师使用WPS自带的文档修复功能也无法修复。
灯珑LoGin
2023/10/18
5390
6步速通:修复损坏的word文件
手把手帮你视频转文本(3-导出word)
首先,为你大致介绍下docx文档格式。docx其实是一个压缩格式文件,手工将后缀修改为zip后,即可解压该文件。通常主要的内容结构都在解压后的word/document.xml 文件中。
技术路漫漫
2020/06/11
1.5K0
手把手帮你视频转文本(3-导出word)
Java freemarker生成word模板文件(如合同文件)及转pdf文件方法
Java freemarker生成word模板文件(如合同文件)及转pdf文件方法 创建模板文件 ContractTemplate.docx
oktokeep
2024/10/09
5180
Java freemarker生成word模板文件(如合同文件)及转pdf文件方法
进击的恶意文档之 VBA 进阶之旅
Office 版本历经十几年的变迁,现已趋于成熟,但仍存在着新老版本交替使用的问题。Office 97-2003 Word 的文件后缀为 doc,新版本的 Office 文件后缀为 docx,包含宏的文档后缀为 docm。微软是不会允许将包含宏的文档命名为 docx,但是可以被命名为老版的 doc。例如一个 docm 文件,文件头的魔数是 504b0304(ZIP 文件的魔数),修改其后缀为 doc 后,文件头的魔数不变,且能够正常执行。而老版的 doc 文件头的魔数是d0cf11e(docfile 的十六进制表示 ^_^),所以我们可以通过文件后缀和魔数是否匹配来判断一个文档是不是恶意的。
信安之路
2019/07/27
4.9K0
原创Paper | WPS WebShape 漏洞及利用分析
8 月 9 日的时候 WPS 官方发布了一条代码执行漏洞的安全通告, 另外根据收到的样本和各类通告,发现在今年的攻防演练期间先后三次发生了不同的针对 WPS 利用链的代码执行攻击。通过我们的研究分析发现,该系列的漏洞都因为在 docx 文档中插入了一个浏览器对象 WebShape,由于 WPS 使用了 Chrome 嵌入式框架(CEF),该对象可以直接调用 Chrome 渲染 Html 网页,这三次都是因为 WPS WebShape 漏洞造成的攻击事件,分别为:
Seebug漏洞平台
2023/10/24
2.2K0
原创Paper | WPS WebShape 漏洞及利用分析
推荐阅读
相关推荐
Java技术:SpringBoot集成FreeMarker生成word文件
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验