开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在R中，为了将相同的过程应用于许多子集，我们是分组还是循环？

在R中，为了将相同的过程应用于许多子集，我们通常使用分组而不是循环。

分组是指将数据按照某个变量或条件进行分割，然后对每个子集应用相同的过程。在R中，可以使用dplyr包中的group_by函数来实现数据分组。通过group_by函数，我们可以将数据按照某个变量进行分组，并在每个分组上应用相同的操作。

例如，假设我们有一个包含学生姓名和成绩的数据集，我们想要计算每个班级的平均成绩。我们可以使用group_by函数将数据按照班级进行分组，然后使用summarize函数计算每个班级的平均成绩。

library(dplyr)

# 创建示例数据集
data <- data.frame(
  student = c("Alice", "Bob", "Charlie", "Dave", "Eve"),
  class = c("A", "B", "A", "B", "A"),
  score = c(90, 85, 95, 80, 92)
)

# 按照班级进行分组，并计算平均成绩
result <- data %>%
  group_by(class) %>%
  summarize(average_score = mean(score))

# 输出结果
print(result)

这样，我们就可以得到每个班级的平均成绩。

在这个例子中，我们使用了dplyr包中的group_by和summarize函数来实现数据分组和计算平均值。dplyr是一个常用的数据处理包，它提供了一组简洁而强大的函数，可以方便地进行数据分组、筛选、排序、汇总等操作。

对于R中的分组操作，腾讯云提供了云原生数据库TDSQL和云数据库CDB等产品，可以帮助用户高效地存储和处理大规模数据，并提供了丰富的分析和计算能力。您可以通过以下链接了解更多信息：

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

R语言系列第三期：②R语言多组汇总及图形展示

事实上，我们在实验中或者调查之后的分析往往希望通过分组比较来获得有统计学意义的结果，因此分组数据在我们平常的工作中更加常见，也更加科学严谨，那么我们就来了解下分组数据的描述。...在这里我们就得介绍一下R的隐式循环了，之前我们学习过while循环，repeat，break循环，for循环；循环的一个常用功能是把一个函数应用到一组值或者向量中的每一个元素，并将结果返回。...上述情况是不同变量的相同操作，如果是对不同组的相同变量操作，应该怎么实现呢？...列表元素的名称通常作为输出结果列的名称。由于函数应用于整个数据框，所以可以选择数据框的子集进行运算，这里是选择了数值变量。...前一个里有一个“~”y~x前后的两个元素关系是用x表达y。这是我们在模型公式里经常看到的符号。之后在回归方程的建立过程中经常使用。

1.7K0 0

SQL 为什么动不动就 N 百行以 K 计

将所有的前 10 名取交集；由于我们事先不知道会有多个产品，这样需要把分组结果也存储在一个临时表中，而这个表有个字段要存储对应的分组成员，这是 SQL 不支持的，办法就行不通了。...但窗口函数的使用经常伴随着子查询，而不能让用户直接使用次序访问集合成员，还是会有许多有序运算难以解决。我们现在想关注一下上面计算出来的“好”销售员的性别比例，即男女各有多少。...这就是我们要说的 SQL 的第四个重要困难：缺乏对象引用机制，关系代数中对象之间的关系完全靠相同的外键值来维持，这不仅在寻找时效率很低，而且无法将外键指向的记录成员直接当作本记录的属性对待，试想，上面的句子可否被写成这样...虽然对于熟练的程序员也算不了太大的麻烦，但对于大多数人而言，这种写法还是过于晦涩难懂了，从这个意义上讲，FORTRAN 确实是个伟大的发明。为了理解方便，我们举的例子还是非常简单的任务。..., 'MMDD') from employee group by to_char(birthday, 'MMDD') having count(*)>1 ) 分组的本意是将源集合分拆成的多个子集合

3943 0

SQL 为什么动不动就 N 百行以 K 计

将所有的前 10 名取交集；由于我们事先不知道会有多个产品，这样需要把分组结果也存储在一个临时表中，而这个表有个字段要存储对应的分组成员，这是 SQL 不支持的，办法就行不通了。...如果有窗口函数的支持，可以转换思路，按产品分组后，计算每个销售员在所有分组的前 10 名中出现的次数，若与产品总数相同，则表示该销售员在所有产品销售额中均前在前 10 名内。...但窗口函数的使用经常伴随着子查询，而不能让用户直接使用次序访问集合成员，还是会有许多有序运算难以解决。我们现在想关注一下上面计算出来的“好”销售员的性别比例，即男女各有多少。...这就是我们要说的 SQL 的第四个重要困难：缺乏对象引用机制，关系代数中对象之间的关系完全靠相同的外键值来维持，这不仅在寻找时效率很低，而且无法将外键指向的记录成员直接当作本记录的属性对待，试想，上面的句子可否被写成这样...虽然对于熟练的程序员也算不了太大的麻烦，但对于大多数人而言，这种写法还是过于晦涩难懂了，从这个意义上讲，FORTRAN 确实是个伟大的发明。为了理解方便，我们举的例子还是非常简单的任务。

5315 0

R语言中 apply 函数详解

apply函数集来转换R中的数据介绍数据操作是机器学习生命周期中最关键的步骤之一。...这里， X是指我们将对其应用操作的数据集（在本例中是矩阵） MARGIN参数允许我们指定是按行还是按列应用操作行边距=1 列边距=2 FUN指的是我们想要在X上“应用”的任何用户定义或内置函数让我们看看计算每行平均数的简单示例...因此，在处理具有不同数据类型特性的数据帧时，最好使用vapply()。 tapply() 简单地说，tapply()允许我们将数据分组，并对每个分组执行操作。...我们将item_qty向量按item_cat向量分组，以创建向量的子集。然后我们计算每个子集的平均值。...尾注到目前为止，我们学习了R中apply()函数族中的各种函数。这些函数集提供了在一瞬间对数据应用各种操作的极其有效的方法。本文介绍了这些函数的基础知识，目的是让你了解这些函数是如何工作的。

20.5K4 0

SQL为什么动不动就N百行以K计

将所有的前10名取交集；由于我们事先不知道会有多个产品，这样需要把分组结果也存储在一个临时表中，而这个表有个字段要存储对应的分组成员，这是SQL不支持的，办法就行不通了。...如果有窗口函数的支持，可以转换思路，按产品分组后，计算每个销售员在所有分组的前10名中出现的次数，若与产品总数相同，则表示该销售员在所有产品销售额中均在前10名内。...但窗口函数的使用经常伴随着子查询，而不能让用户直接使用次序访问集合成员，还是会有许多有序运算难以解决。我们现在想关注一下上面计算出来的“好”销售员的性别比例，即男女各有多少。...这就是我们要说的SQL的第四个重要困难：缺乏对象引用机制，关系代数中对象之间的关系完全靠相同的外键值来维持，这不仅在寻找时效率很低，而且无法将外键指向的记录成员直接当作本记录的属性对待，试想，上面的句子可否被写成这样...虽然对于熟练的程序员也算不了太大的麻烦，但对于大多数人而言，这种写法还是过于晦涩难懂了，从这个意义上讲，FORTRAN确实是个伟大的发明。为了理解方便，我们举的例子还是非常简单的任务。

3581 0

ImageNet训练再创纪录，EfficientNet异军突起，ResNet：感受到了威胁

例如，如果我们将每核的批处理大小固定为32，则1024个核上的全局批处理大小将为32768。...为了解决这个问题，作者将线性缩放规则应用于批次中每256个样本的学习率。但是，较高的学习率会导致发散。因此，作者还应用了学习率预热，其中训练以较小的初始学习率开始，并在可调整的时期内逐渐提高学习率。...分布式评估评估循环的执行是EfficientNet的标准云TPU实现的另一个计算瓶颈，因为评估和训练循环是在单独的TPU上执行的。...分布式批处理归一化作者使用Ying等人提出的方案，通过将副本的子集分组在一起，在副本之间分布批处理归一化。这种优化可通过权衡TPU之间的通信成本来提高最终精度。分组在一起的副本数是可调超参数。...最终的批次归一化批次大小（每个副本子集中的样本总数）也会影响模型质量以及收敛速度。对于大于16的副本子集，作者还探索了将副本分组在一起的二维切片方法。

1.2K3 0

粒子群优化算法(PSO)之基于离散化的特征选择(FS)（二）

前面我们介绍了特征选择(Feature Selection，FS)与离散化数据的重要性，总览的介绍了PSO在FS中的重要性和一些常用的方法。...与随机生成不同，EC是一种随机的方法，它应用进化原理或群智能来从当前的子集生成更好的子集。PSO是一种应用于FS的群体智能技术，并显示了其有效性。...在此领域提出了许多不同策略的离散化方法。但是，它们都具有相同的目的，即确定将特征值分割为离散值的分割点。在特征值的范围内，分割点或分点是真正的值，这些值被用来分割这个范围到若干个间隔。...一种方法也属于单变量或多变量，这取决于特征是离散的还是多个特性的离散化，同时考虑特征之间的交互。等宽和等频是两种简单的无监督方法。它们将特性离散为一个预定义的m间隔，具有相同的宽度或相同数量的值。...另一种通过离散化的方法是基于离散化过程中计算出的一些度量方法进行排序。然后，将选择一些级别最高的特征。这个方法的一个例子是PEAR，其中的特性是从最小的切点数量到最大的。

1.1K5 0

SQL开源替代品，诞生了！

换一种思路： 1．将数据按产品分组，将每组排序，取出前 10 名； 2．将所有的前 10 名取交集；但这样需要把第一步的分组结果保存起来，而这个中间结果是一个表，其中有个字段要存储对应的分组成员中的前...但窗口函数的使用经常伴随着子查询，而不能让用户直接使用次序访问集合成员，还是会有许多有序运算难以解决。我们现在想关注一下上面计算出来的“好”销售员的性别比例，即男女各有多少。...这就是我们要说的 SQL 的下一个重要困难：缺乏对象引用机制，关系代数中对象之间的关系完全靠相同的外键值来维持，这不仅在寻找时效率很低，而且无法将外键指向的记录成员直接当作本记录的属性对待，试想，上面的句子可否被写成这样...虽然对于熟练的程序员也算不了太大的麻烦，但对于大多数人而言，这种写法还是过于晦涩难懂了，从这个意义上讲，FORTRAN 确实是个伟大的发明。为了理解方便，我们举的例子还是非常简单的任务。...使用 SQL 时无法描述此过程，需要转换思路，计算从初始日期到当日的累计不涨日数，不涨日数相同者即是连续上涨的交易日，针对其分组即可拆出连续上涨的区间，再求其最大计数。

2621 0

J. Chem. Inf. Model. | 能否快速学习使用Transformer模型“翻译”生物活性分子？

通过对Transformer模型在ChEMBL亚集上对COX2、DRD2或HERG蛋白靶点结合的配体的性能进行回顾性分析，作者证明尽管模型在训练过程中没有看到任何对应蛋白靶点活性的配体，但模型仍能生成与大多数活性配体相同或高度相似的结构...特别是，将Transformer模型应用于活性扩展的思想将其视为已知对某个靶点具有活性的分子“翻译”成对同一靶点应该具有活性（最好是更活性）的新型分子的过程（图1b）。...实验结果图 2 作者首先探讨的问题是在训练过程中，Transformer模型的常见信息理论评分与模型输出的化学评分之间的关系。...值得注意的是，在训练的相同阶段（第10至12个epoch），我们观察到模型的化学评分模式发生了定性变化。...然后将相同的过程应用于生成由Transformer机器学习模型（经过10个epoch的训练和过滤截断值为50）输出的分子与来自验证子集的输入分子之间的所有合理的SMIRKS。

3464 0

这可能是交互性最强的数据分析编程语言

然后按照条件分组，将 CODE 相同且收盘价 CL 大于上一日的数据分到一组，group 的 @i 选项表示满足条件将产生新的分组。...而且，SPL 的分组可以保持分组子集，即分组的结果是由分组子集构成的集合，这也是许多程序语言不具备的能力。前面执行过的代码已经有了结果，不必再重复执行，否则步骤较多或者数据量较大时执行慢会浪费时间。...从这个过程可以看出，SPL 作为一种程序语言，却具备了与 Excel 相当的交互能力。探索分析过程中写的代码都留在格子，必要时还可以重复执行（比如更换了源数据）。...上面计算连涨区间的示例过程中就运用了 SPL 的有序和集合相关运算，在强计算能力的支持下，可以很轻松完成各类复杂的数据分析任务。...相比之下，SQL 和 Python 这方面要更弱，这个连涨区间的任务用 SQL 就很难写出来，Python 也不容易。为了写出代码对比，我们把问题简化成计算每只股票最长连续上涨天数。

801 0

算法研习：决策树算法基本原理分析

决策树(Decision Trees，DT)是一中监督机器学习算法，该算法根据数据的特征进行逐层划分直到划分完所有的特征，这一过程类似于树叶生长过程。...CART：CART根据目标变量是分类还是回归分别生成二进制分类或回归树。它以原始形式处理数据，并且可以在同一DT的不同部分中多次使用相同的变量，这可以揭示变量集之间复杂的相互依赖性。...增益比率是通过在选择属性时考虑分支的数量和大小，减少了具有大量分支的DT的偏差。此外C4.5还包含一种窗口化的技术，该技术最初是为了克服早期计算机的内存限制而开发的。...否则，将所有错误分类的数据点添加到窗口中，并且循环重复直到训练集中的每个实例被当前DT正确分类。该技术使DT具有更高的准确率。...在迭代过程中，我们可以在每个子节点重复这个分裂过程，这意味着每个叶节点处的样本都属于同一个类。同时我们可以设置树的深度来防止过度拟合。决策树分类示例如下图所示： ? ?

1.9K1 1

为内存塞不下Transformer犯愁？OpenAI应用AI研究负责人写了份指南

Q-BERT 将分组量化应用于微调的 BERT 模型，将 MHSA（多头自注意力）中每个头的单个矩阵 W 视为一个组，然后应用基于 Hessian 矩阵的混合精度量化。...超参数 α 控制从激活函数迁移到权重的程度。该研究发现 α=0.5 是实验中许多 LLM 的最佳取值。对于激活异常值较大的模型，可以将 α 调大。...(1) 对矩阵中的列进行排列可以在剪枝过程中提供更多可能，以保持参数的数量或满足特殊限制，如 N:M 稀疏性。只要两个矩阵对应的轴按相同的顺序排列，矩阵乘法的结果就不会改变。...稀疏向后传递：然后将梯度应用于更大的参数子集 , 其中 B 包含 (D+M)， A⊂B。扩大需要更新的权重比例可以更有效地探索不同的剪枝掩码，从而更有可能将前 D% 的激活权重排列好。...路由策略改进 MoE 层有一个路由网络来为每个输入 token 分配一个专家子集。原生 MoE 模型中的路由策略是将每个 token 以不同的方式路由到按自然顺序出现的首选专家。

1.9K3 0

《数据库系统实现》学习笔记

如果关系R不是聚集的，即元组分散在不同的硬盘块中，那么表扫描的代价就是T，如果关系R能够全部装进内存，那排序扫描的代价也是T。 4.1.6 实现物理操作符的迭代器许多物理操作符可以实现为迭代器。...要求：B(\delta(R)) <= M 在open方法中非阻塞分组在内存中为分组创建一个项，在项中存有分组的属性值和聚集的一个或者多个累计值。对于MIN或MAX，只需要存一个最小值或最大值。...4.4.3 利用排序进行分组和聚集在阶段1中，取分组属性作为排序关键字。在阶段2的归并流程2中，先判断是否有分组属性值相同的元组，有就做聚集操作，没有就直接输出。...有三中类型定律，这取决于下推选择到每个参数是可选的还是必须的。对于并，选择必须下推到两个参数中。对于差，选择必须下推到第一个参数，下推到第二个参数是可选的。...参数从一个运算符传送到下一个运算符的方式。为了做出每项选择，我们需要知道各个物理计划的代价是多少，在没有执行计划的前提下，我们不能准确地知道其代价。

2.6K2 0

你的朋友也在看！谷歌STUDY算法加持书单推荐系统，让学生爱上阅读

推荐系统的核心是机器学习（Machine learning, ML），它被广泛应用于构建各种类型的推荐系统中：从视频到图书，再到电商平台等。...因此，序列中任何输出点的预测都会参考相对于当前时间点过去发生的所有输入点，无论它们是出现在序列中当前输入点之前还是之后。...因此，研究者将第一个测试子集称为「非延续」，在这个子集中，我们只考察每个模型在学生与不同于前一次互动的书籍进行互动时的推荐性能。...为了衡量这一点，团队在测试集的子集上对模型进行了评估，在这个子集上，学生们第一次与书目进行交互。我们将这个评估子集命名为「新子集」。可以发现，「STUDY 」在几乎所有评估中，都优于其他模型。...在提出的模型中，研究人员将同一年级和学校的所有学生进行分组。然后试验了由同一年级和同一学区的所有学生定义的分组，以及将所有学生归入一个组中，并在每次前向传递时使用随机子集的分组。

1661 0

CVPR 2020 | 一种频域深度学习

在下游任务中，我们的模型采用与经典神经网络（如ResNet-50、MobileNetV2和Mask R-CNN）相同的结构，但接受频域信息作为输入。...当输入尺寸减半时，所提出的方法仍然将ResNet-50的top-1准确率提高了1.42%。此外，我们观察到在COCO数据集上的分割任务中，Mask R-CNN的平均精度提高了0.8%。...在 DCT reshape 操作中，类似于JPEG压缩标准在YCbCr颜色空间上使用8×8的DCT变换，我们将所有8×8块中相同频率的分量分组到一个通道中，保持它们在每个频率上的空间关系。...例如，如果张量4中第i个通道的两个数字是7.5和2.5，则第i个门关闭的概率为75%。换句话说，张量5中的第i个频率通道在75%的时间内都变为零，这有效地阻止了该频率通道在推断过程中的使用。...这三者之间 top1 准确性的变化几乎可以忽略不计，而且它们的性能都比基准的ResNet-50高出大约1.4%。这表明，只要选择了大多数低频率通道，所提出的频域学习就可以应用于许多任务。

9544 1

AI做数学学会「动脑子」！ UCL等发现LLM「程序性知识」，推理绝不是背答案

文档中的程序性知识，驱动了对推理过程轨迹的影响一个文档对某个查询推理过程轨迹的影响力，可以强烈预测该文档对相同数学任务的另一个查询的影响力。相比之下，这种现象在事实性查询中却并不成立。...这表明，对于需要将相同程序应用于不同数字的问题，文档通常具有类似的贡献。在斜率计算的查询中，这种相关性尤其显著。在排名前0.002%的预训练数据中，多次发现了包含代码或数学解题程序的文档。 2....这一现象表明，许多文档对同类型推理问题具有类似的影响。考虑到每种类型的推理查询都需要将相同的程序应用于不同的数字，正相关性进一步说明，推理查询的文档影响评分能够捕捉到程序性知识。...最后，将关键词重叠搜索与Command R+提示词相结合，应用于2.5B预训练token的子集，以验证答案是否存在于整个数据集中，而不只是前500个文档。...为了证伪「推理问题的答案未出现是因为它们不存在于500万个文档集合中」这一假设，研究人员在500万文档的随机子集中重复了上述关键词搜索。

400 0

其实你就学不会 Python

无数培训机构和网上资料都会告诉我们：Python! Python 代码看起来很简单，只要几行就能解决许多麻烦的 Excel 问题，看起来真不错。但真是如此吗？...我们通过例子来看一下，比如这样的表格：除第一行外的每行数据称为一条记录，对应了一件事、一个人、一张订单……，第一行是标题，说明记录由哪些属性构成，这些记录都有相同的属性，整个表就是这样一些记录的集合...简单的过滤运算，比如取出研发部员工，我们想像中的结果应该是人员表的子集，但实际上是整个人员表（矩阵）和一些被选择的行位置（称为行索引），可以理解为子矩阵。...这些东西之间转换还很“丝滑”，稍不留神就变成另一种不认识的东西。结果，编程基本靠搜，即使跑对了也还是搞不懂记不住，下次还得搜。再进一步，将各部门员工按照入职时间从早到晚进行排序。...这只要分组后将子集按照入职时间排序即可，写出来是这样的： import pandas as pd employee = pd.read_csv("Employee.csv") employee['HIREDATE

1101 0

图

在点对点网络中，比如BitTorrent，广度优先搜索用于查找所有邻居节点。搜索引擎中的爬虫。社交网站：在社交网络中，我们可以找到某个特定的人距离为“K”的所有人。...3->3这样的自循环也可以认为是一条后向边。为了检测图中的后向边，对DFS递归函数的中递归栈进行跟踪。如果我们当前遍历的顶点出现在递归栈中，那么就认为存在一条后向边，图中存在循环。...数组就更新为下面这样 0 1 2 1 -1 -1 然后是1-2边：1在子集1中，2在子集2中，不在同一个子集，于是union起来，将子集1置于子集2下面。...结果如下 0 1 2 1 2 -1 最后是0-2边：0在子集2中（0在子集1中，子集1在子集2中），2也在子集2中。那么加上这条边就形成一个环。...例如，下面图的拓扑排序是“5 4 2 3 1 0”,拓扑排序次序并不唯一。 ? 拓扑排序过程：将DFS修改一下就行了。

1.8K1 0

数据库 | 最新版 STRING 数据库都更新了哪些内容？

Para_03 交互数据库的发展迄今为止一直是在详细说明相互作用的确切模式——无论是物理的还是功能的、信号传递的还是结构的、稳定的还是瞬时的——和保持全面的相互作用集之间的一种权衡。...Para_12 为了将具有特定方向性、符号和类型的相互作用整合到STRING中，我们利用了RegulaTome（32）中描述的新颖数据集和基于深度学习的关系提取方法。...Para_15 为了将这些相互作用整合到STRING中，我们采用了与物理相互作用相似的评分聚合和基准方法。...Para_18 为了即将到来的12.5版本，我们正在通过将FAVA（功能关联变分自动编码器）（25）应用于更广泛范围的单细胞RNA测序数据上，扩展共表达通道，从而生成额外的网络。...为了解决这个问题，一种方法是将分析限制在一个术语子集上，例如关注广泛、高级术语的 'GO 简化版'，它们具有简化的本体结构（16）。

1221 0

5分钟Flink - 流处理API转换算子集合

Windows会根据某些特征（例如，最近5秒钟内到达的数据）对所有流事件进行分组。警告：*在许多情况下，这是非并行*转换。...Union之前两个流的类型必须是一样，Connect可以不一样，在之后的coMap中再去调整成为一样的。2. Connect只能操作两个流，Union可以操作多个。...，在流中创建“反馈”循环。...在存在数据偏斜的情况下对性能优化有用. dataStream.rebalance() Rescaling DataStream → DataStream 将元素循环地分区到下游操作的子集。...Flink会将具有相同插槽共享组的操作放入同一插槽，同时将没有插槽共享组的操作保留在其他插槽中。这可以用来隔离插槽。如果所有输入操作都在同一插槽共享组中，则插槽共享组将从输入操作继承。

9971 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭