Spring boot batch -过滤大数据的最佳方法

Spring Boot Batch 是一个用于处理大量数据的框架，它提供了丰富的功能来管理和执行批处理作业。在处理大数据时，过滤数据是一个常见的需求，以下是一些最佳方法和策略：

基础概念

Spring Boot Batch 通过将作业分解为一系列步骤（Steps）来处理数据，每个步骤可以包含读取器（Reader）、处理器（Processor）和写入器（Writer）。过滤数据通常在处理器阶段进行。

类型

基于条件的过滤：根据特定条件过滤数据。
基于分区的过滤：将数据分区处理，每个分区可以独立过滤。

应用场景

数据清洗：去除无效或错误的数据。
数据转换：在处理过程中应用业务逻辑进行数据转换。
数据筛选：根据业务需求筛选出需要的数据。

示例代码

以下是一个简单的示例，展示如何在 Spring Boot Batch 中使用处理器进行数据过滤：

import org.springframework.batch.core.Job;
import org.springframework.batch.core.Step;
import org.springframework.batch.core.configuration.annotation.EnableBatchProcessing;
import org.springframework.batch.core.configuration.annotation.JobBuilderFactory;
import org.springframework.batch.core.configuration.annotation.StepBuilderFactory;
import org.springframework.batch.item.ItemProcessor;
import org.springframework.batch.item.file.FlatFileItemReader;
import org.springframework.batch.item.file.mapping.BeanWrapperFieldSetMapper;
import org.springframework.batch.item.file.mapping.DefaultLineMapper;
import org.springframework.batch.item.file.transform.DelimitedLineTokenizer;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;
import org.springframework.core.io.ClassPathResource;

@Configuration
@EnableBatchProcessing
public class BatchConfig {

    @Autowired
    public JobBuilderFactory jobBuilderFactory;

    @Autowired
    public StepBuilderFactory stepBuilderFactory;

    @Bean
    public FlatFileItemReader<Person> reader() {
        FlatFileItemReader<Person> reader = new FlatFileItemReader<>();
        reader.setResource(new ClassPathResource("sample-data.csv"));
        reader.setLineMapper(new DefaultLineMapper<Person>() {{
            setLineTokenizer(new DelimitedLineTokenizer() {{
                setNames(new String[] { "firstName", "lastName" });
            }});
            setFieldSetMapper(new BeanWrapperFieldSetMapper<Person>() {{
                setTargetType(Person.class);
            }});
        }});
        return reader;
    }

    @Bean
    public ItemProcessor<Person, Person> processor() {
        return person -> {
            if (person.getFirstName().startsWith("A")) {
                return person;
            } else {
                return null; // 过滤掉不符合条件的数据
            }
        };
    }

    @Bean
    public PersonWriter writer() {
        return new PersonWriter();
    }

    @Bean
    public Job importUserJob(Step step1) {
        return jobBuilderFactory.get("importUserJob")
                .flow(step1)
                .end()
                .build();
    }

    @Bean
    public Step step1(ItemProcessor<Person, Person> processor, PersonWriter writer) {
        return stepBuilderFactory.get("step1")
                .<Person, Person> chunk(10)
                .reader(reader())
                .processor(processor)
                .writer(writer)
                .build();
    }
}

遇到的问题及解决方法

问题：过滤效率低下

原因：可能是由于数据量过大，单线程处理导致效率低下。 解决方法：

并行处理：使用多线程或多实例并行处理数据。
分区处理：将数据分区，每个分区独立处理。

问题：内存溢出

原因：处理大数据时，一次性加载过多数据到内存中。 解决方法：

分页读取：使用分页读取数据，避免一次性加载过多数据。
流式处理：采用流式处理方式，逐行或逐块处理数据。

通过以上方法和策略，可以有效地在 Spring Boot Batch 中进行大数据过滤，提高处理效率和稳定性。

Spring boot batch -过滤大数据的最佳方法

、、、

我正在编写一个spring boot批处理应用程序，我对处理大数据的最佳方式感到困惑。我有一个包含数百万个用户I的输入文件，我需要从另一个表中删除这些I。我不认为查询每个用户I是个好主意，但我现在没有不同的解决方案。不幸的是，这些用户ids是非常随机的，无法排序。有谁能给我推荐最好的方法吗？数据库为Oracle。

浏览 22提问于2020-12-31得票数 0

3回答

如何在Spring中使用Maven命令运行特定作业？

、、

给定下面的作业配置，如何使用Maven命令在Spring批处理应用程序中在命令行中执行作业scrubWord？

浏览 1提问于2022-09-04得票数 1

回答已采纳

1回答

如何在批量/批处理中保存或更新许多实体？

、、、、

null)我有一个实体列表(List<>)，如果某个实体已经在一个表中，我希望将它们保存到一个表或更新中，但是我需要一种有效的方法来使用一些批量现在我尝试了repository.saveAll和entityManager.merge，但是我得到了重复的值错误，因为它没有更新表中已经存在的值。我该怎么办？

浏览 7提问于2022-04-23得票数 0

4回答

Spring批/ Postgres :错误:关系"batch_job_instance“不存在

、、

我正在尝试将Spring配置为使用PostGres DB。我在我的build.gradle.kts文件中包含了以下依赖项：implementation("org.postgresql:postgresql")

浏览 41提问于2021-01-08得票数 5

回答已采纳

2回答

Spring批处理作业实例重复

、、、

我有一个小的示例Spring批处理应用程序，它在第一次启动时将正常工作，但每当我关闭应用程序并重新启动jar时，我总是收到以下错误： }<e

浏览 2提问于2013-10-26得票数 8

回答已采纳

1回答

正在寻找数据源的项目，但我使用的是MongoDB

、、、

描述:我正在使用MongoDB，它一直在请求一个数据源。TO START - Bean method 'dataSource' not

浏览 0提问于2018-10-30得票数 0

1回答

如何使用动态JpaRepository进行批量插入，即不知道batch_size

、、、、

我正在一个java spring引导API中工作，在那里我需要在我的数据库中插入大量数据。我知道我怎么能做到这一点。要获得Sring Boot和Spring数据JPA的大容量插入，只需做两件事：设置选项spring.jpa.properties.hibernate.jdbc.batch_size = 50使用repo的saveAll()方法和准备插入

浏览 1提问于2019-04-11得票数 1

回答已采纳

3回答

@EnableBatchProcessing出现未满足的依赖异常

、、、

我正在尝试Spring Batches在MySQL数据库中运行详细信息，我做了一些调试，但我似乎就是无法通过@EnableBatchProcessing传递错误…… at org.s

浏览 0提问于2018-11-21得票数 0

1回答

找不到产品名称的DatabaseType：[Tibero]

、、、、

在尝试设置Spring boot - spring批处理项目时，我遇到一个错误，声明：请参考下面的错误日志。(JobRepositoryFactoryBean.java:183) ~[spring-batch-core-4.2.1.RELEASE.jar:4.2.1.RELEASE]

浏览 7提问于2020-04-17得票数 0

1回答

春季批处理MongoDB依赖问题

、、、

$Proxy46.run(Unknown Source)我认为问题在于添加这个方法时我应该使用我正在使用Eclipse，并生成了依赖级，并将注意力集中在spring核心上。结果如下； <spring

浏览 3提问于2016-11-06得票数 0

回答已采纳

1回答

为现有作业设置独立的spring* batch作业管理门户*

、

目前，我已经在spring-batch 2.1中开发了spring batch作业由于有如此多的作业，而且它们在很长一段时间内都运行良好-所以升级到最新版本将需要一些时间。到那时，我想建立spring batch管理门户，到目前为止还没有找到任何确定的解决方案

浏览 15提问于2019-03-26得票数 0

回答已采纳

1回答

我有一个spring batch应用程序，我必须覆盖像jobLauncher这样的bean。但是，当我尝试运行命令clean install时，我遇到了bean覆盖问题。它在我的本地机器上工作得很好，但我在Jenkins上遇到了这个问题，我不知道为什么它不能在我的本地机器上发生。我查看了spring代码，他们正在扩展configuration类并覆盖bean。batch beans。我发现这不是使用spring.main.allow-bean-def

浏览 48提问于2019-05-21得票数 3

回答已采纳

1回答

ElasticSearch 6.2.3集成Spring* Data/Spring *Batch进行索引

、、、

我有一个要求索引的数据，我正在获得它从网络服务。我必须使用一些spring框架来完成这个索引活动。将Spring Batch / Spring数据与Spring Boot一起使用是否可取。

浏览 0提问于2018-10-09得票数 0

1回答

Spring批处理-BatchDatabaseInitializer : init方法调用失败

、、

通过使用delow配置，我的春季批处理可以很好地处理内存中的数据库hsqldb。(); return simpleJobLauncher;但是，当我与DB2数据库连接时/core/schema-db2zos.sql] cannot be opened because it does not exist 在添加了属性之后，(spring.batch</em

浏览 0提问于2016-08-29得票数 2

回答已采纳

1回答

在Spring启动时使用H2数据库进行大容量插入

、、

但是大容量插入不起作用。spring.jpa.properties.hibernate.jdbc.batch_size=5/*SQL #:1*/call next value for hibernate_sequence35.139 INFO 43465 --- [ main] h2database 如何使用Spring-Boot在H2<em

浏览 4提问于2021-02-28得票数 0

2回答

如何在spring* batch中使用HibernateCursorItemReader*

、、

在spring批处理作业中，我有一个步骤，希望使用Hibernate从数据库中逐块读取数据，对其进行处理，然后将其写回数据库。.next(step2) .build();} 在step1编写器中，我使用Hibernate将数据保存到数据库中接口，它的saveMany方法只使用来自CrudRepository<StepOneEntity, Str

浏览 0提问于2019-07-15得票数 0

1回答

Java Spring* Boot Batch -需要一些设计建议*

、

我是一个Java新手，正在尝试实现一个Spring Boot批处理应用程序。我会有一个工作，这将有2个步骤。如果步骤1找到一些数据，那么只执行步骤2？我可以在Spring Boot Batch中实现吗？或者，实现这一点的

浏览 0提问于2018-04-26得票数 1

1回答

Spring引导:子模块依赖项

、

我有多模块的弹簧引导应用程序。我组织它的方式是，它包含有web类的@SpringBootApplication模块和由web模块导入的其他几个模块(例如，batch-jobs模块)。web模块包含spring中的所有依赖项：compile('or

浏览 6提问于2016-11-29得票数 0

回答已采纳

2回答

spring batch itemWriter for pdf

、、

有没有什么方法可以使用spring batch ItemWriter将数据写入PDF文件。我看过很多.txt，.xml等的例子，没有一个是给pdf writer的。使用spring boot和batch。提前谢谢。

浏览 0提问于2018-04-02得票数 0

1回答

Spring Batch作业存储库

、

我已经开始探索Spring Batch，并遇到了一些基本问题。感谢你的帮助。

浏览 5提问于2017-09-16得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spring boot batch -过滤大数据的最佳方法

基础概念

相关优势

类型

应用场景

示例代码

遇到的问题及解决方法

问题：过滤效率低下

问题：内存溢出

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐