前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Export大数据量导出和打包

Export大数据量导出和打包

原创
作者头像
青衫染红尘
修改2022-05-11 16:30:58
6010
修改2022-05-11 16:30:58
举报
文章被收录于专栏:Surpass' Blog

项目需求

导出生成大批量数据的文件,一个Excel中最多存有五十万条数据,查询多余五十万的数据写多个Excel中。导出完成是生成的多个Excel文件打包压缩成zip,而后更新导出记录中的压缩文件路径。

大数据量文件一般采用异步生成文件,导出时首先授权生成一个流水号,而后将数据携带流水号请求导出接口。

抛开实际业务,做成一个比较公共的导出功能。

参数说明

代码语言:json
复制
{
    "className": "ValideData",         //导出的数据的实体类,类中有别名和顺序相关的注解
    "createUser": "",				//操作人
    "downLoadNo": "202203181504732568468066304",  	//下载流水号
    "fileName": "机卡绑定",          //文件名      fileName+HHmmssSSS.xlsx
    "keys": [						//redis key的数据,分批获取数据
    ],
    "remark": "机卡绑定",				//备注(不关注)
    "type": "机卡绑定"					//导出类型(不关注)
}

坐标

代码语言:html
复制
<dependency>
  <groupId>org.apache.commons</groupId>
  <artifactId>commons-compress</artifactId>
  <version>1.21</version>
</dependency>

注:抛开导出前的参数校验,只关注导出操作 。

主要代码

逻辑说明:

  1. 导出前将请求参数更新到导出记录中。
  2. 类加载器加载需要导出数据的实体类
  3. 设置一个数据量指针,记录到每个文件的数据量
  4. 达到阈值时指定文件写出到磁盘并清缓。
  5. 重置数据量指针,新增一条文件记录(循环)
  6. 数据量指针未到阈值时但数据已经查询完成---->>写入剩余数据
  7. 查询该流水号的所有文件记录
  8. 压缩文件并返回压缩文件地址
  9. 更新到导出记录中

主流程

代码语言:java
复制
public void bigDataExport(PortDto dto) throws Exception {
    long start = System.currentTimeMillis();
    log.info("开始导出,批次号:<{}>, 开始时间:{}", dto.getDownLoadNo(), DateUtil.now());

    //修改导出记录
    LambdaUpdateWrapper<PortDto> updateWrapper = new LambdaUpdateWrapper<>();
    updateWrapper.eq(PortDto::getDownLoadNo, dto.getDownLoadNo());
    //生成导出记录
    int row = this.baseMapper.update(dto, updateWrapper);
    if (row > 0) {
        log.info("批次号:<{}>准备生成文件", dto.getDownLoadNo());
        try {
            Iterator<String> iterator = keys.iterator();
            Workbook workbook = null;
            ExportParams params = new ExportParams();

            //加载导出数据实体类
            Class<?> aClass = Class.forName(entityBasePackage + dto.getClassName());

            int element = 0;
            while (iterator.hasNext()) {
                String key = iterator.next();
                Collection<?> list = getList(key, aClass);
                element += list.size();
                workbook = ExcelExportUtil.exportBigExcel(params, aClass, list);

                //文件数据达到阈值
                if (element >= maxDataCount) {
                    String fileName = dto.getFileName() + "_" + DateUtil.format(new Date(),
                            "HHmmssSSS") + ".xlsx";
                    ExcelExportUtil.closeExportBigExcel();
                    FileOutputStream fos =
                            new FileOutputStream(fileProp.getPath().getPath() + fileName);
                    workbook.write(fos);
                    fos.close();
                    element = 0;
                    //更新地址
                    Map<String, Object> map = new HashMap<>();
                    map.put("downloadNo", dto.getDownLoadNo());
                    map.put("filePath", fileProp.getPath().getPath() + fileName);
                    map.put("createTime", new Date());
                    this.baseMapper.insertPathRecord(map);
                    log.info("文件写入完成,文件名:{}", fileName);
                    continue;
                }
                iterator.remove();
            }

            //写入剩余文件
            if (element != 0) {
                String fileName = dto.getFileName() + "_" + DateUtil.format(new Date(),
                        "HHmmssSSS") + ".xlsx";
                ExcelExportUtil.closeExportBigExcel();
                FileOutputStream fos = new FileOutputStream(fileProp.getPath().getPath() + fileName);
                workbook.write(fos);
                fos.close();
                element = 0;
                //更新地址
                Map<String, Object> map = new HashMap<>();
                map.put("downloadNo", dto.getDownLoadNo());
                map.put("filePath", fileProp.getPath().getPath() + fileName);
                map.put("createTime", new Date());
                this.baseMapper.insertPathRecord(map);
                log.info("文件写入完成,文件名:{}", fileName);
            }

            long end = System.currentTimeMillis();
            log.info("导出结束,批次号:<{}>, 结束时间:{}, 耗时:{}", dto.getDownLoadNo(), DateTime.of(end),
                    DateUtil.formatBetween(end - start));
        } catch (Exception e) {
            log.info("批次号<{}>导出异常:", dto.getDownLoadNo(), e);
            throw new BusinessException("");
        } finally {
            log.info("批次号<{}>生成文件结束,准备压缩文件,修改状态", dto.getDownLoadNo());
            //合并文件到导出文件记录主表
            //当只有一个文件记录时直接更新主表文件地址
            List<PortDto> recordList = exportDao.getPathRecord(dto);
            if (recordList.size() > 1) {
                //zipPath
                dto.setFilePath(zcat(dto, recordList));
            } else {
                //xlsxPath
                dto.setFilePath(recordList.size()==0? "":recordList.get(0).getFilePath());
            }
            updateWrapper.clear();
            updateWrapper.set(PortDto::getFilePath, dto.getFilePath());
            updateWrapper.set(PortDto::getSuccessTime, new Date());
            updateWrapper.set(PortDto::getStatus, "1");
            updateWrapper.eq(PortDto::getDownLoadNo, dto.getDownLoadNo());
            this.baseMapper.update(null, updateWrapper);
            log.info("批次号<{}>更新下载记录表文件地址,修改状态成功", dto.getDownLoadNo());
        }
    }
}

文件压缩

使用hutool的工具类

代码语言:html
复制
<dependency>
	<groupId>cn.hutool</groupId>
	<artifactId>hutool-all</artifactId>
	<version>5.7.3</version>
</dependency>
代码语言:java
复制
/**
 *  多文件压缩
 * @param dto 导出信息
 * @Param recordList 文件路径
 * @return void
 * @throws
 * @author Surpass
 * @date 2022/3/17 9:59
 */
private String zcat(PortDto dto, List<PortDto> recordList) throws Exception {
    //临时文件
        List<String> tempFileList = new ArrayList<>();
        try {
            String destFilePath = fileProp.getPath().getPath() + IdUtil.fastSimpleUUID() + ".temp";
            tempFileList.add(destFilePath);
            File destFile = new File(destFilePath);
            Archiver archiver = CompressUtil.createArchiver(
                    CharsetUtil.CHARSET_UTF_8,
                    ArchiveStreamFactory.ZIP,
                    destFile
            );
            for (PortDto portDto : recordList) {
                String ext = portDto.getFilePath().substring(portDto.getFilePath().lastIndexOf("."));
                String tempFilePath = fileProp.getPath().getPath() + IdUtil.fastSimpleUUID() + ext;
                tempFileList.add(tempFilePath);
                File file1 = HttpUtil.downloadFileFromUrl(fastBaseUrl + portDto.getFilePath(), tempFilePath);
                archiver.add(file1);
            }
            archiver.finish();
            archiver.close();

            //上传
            InputStream is = new FileInputStream(destFile);
            return fastDFSClient.uploadFile(is, is.available(), ArchiveStreamFactory.ZIP);
        } finally {
            log.info("压缩包上传完成,删除临时文件");
            tempFileList.forEach(FileUtil::del);
        }
}

查询数据

代码语言:json
复制
/**
 *   查询redis数据
 * @param key
 * @param cls
 * @return java.util.Collection<?>
 * @throws
 * @author Surpass
 * @date 2022/3/18 15:51
 */
private Collection<?> getList(String key, Class<?> cls) {
    List<String> list = redis.getList(key);
    return list.stream().map(item -> JSONObject.parseObject(item, cls)).collect(Collectors.toList());
}

补充

导出还设置了队列计数器来限制同一时间最大的导出请求,使用aop在申请流水号时计数器+1,导出完成或者异常时队列计数器-1。导出完成后根据操作人发送邮件通知导出结果。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 项目需求
  • 参数说明
  • 坐标
  • 主要代码
    • 主流程
      • 文件压缩
        • 查询数据
        • 补充
        相关产品与服务
        大数据
        全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档