开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在R中使用仅应用于数字列的变分函数和rollmean函数高效地创建新列令人困惑

在R中，如果你想要对数据框中的数字列应用变分函数（例如方差）和滚动平均函数（例如rollmean），并且希望高效地创建新列，你可以使用dplyr包来实现。以下是一个示例代码，展示了如何仅对数字列应用这些函数并创建新列：

# 安装并加载dplyr包
if (!require("dplyr")) {
  install.packages("dplyr")
  library(dplyr)
}

# 创建一个示例数据框
df <- data.frame(
  A = c(1, 2, 3, 4, 5),
  B = c(5, 4, 3, 2, 1),
  C = c("a", "b", "c", "d", "e")
)

# 定义一个函数来计算滚动平均
roll_mean <- function(x, k) {
  rollapply(x, width = k, FUN = mean, fill = NA, align = "right")
}

# 使用dplyr的mutate_if函数仅对数字列应用变分和滚动平均
result <- df %>%
  mutate_if(is.numeric, ~ var(., na.rm = TRUE)) %>%
  mutate_if(is.numeric, ~ roll_mean(., k = 2))

# 查看结果
print(result)

在这个示例中，我们首先创建了一个包含数字和非数字列的数据框。然后，我们定义了一个roll_mean函数来计算滚动平均。接下来，我们使用dplyr包中的mutate_if函数来仅对数字列应用方差计算和滚动平均函数。

基础概念

变分函数：用于计算数据的方差，衡量数据的离散程度。
滚动平均函数：用于计算数据序列在一定窗口内的平均值，常用于平滑时间序列数据。

优势

高效性：使用dplyr包的mutate_if函数可以仅对特定类型的列进行操作，提高计算效率。
灵活性：可以轻松地对不同类型的列应用不同的函数。

类型

变分函数：如var()。
滚动平均函数：如自定义的roll_mean函数。

应用场景

数据分析：在处理时间序列数据时，常需要计算滚动平均来平滑数据。
数据预处理：在机器学习中，常需要对数据进行标准化或归一化处理，变分函数可以帮助评估数据的离散程度。

可能遇到的问题及解决方法

非数字列的处理：如果数据框中包含非数字列，直接应用数学函数会报错。使用mutate_if可以避免这个问题。
滚动窗口大小的选择：选择合适的窗口大小对于滚动平均的计算至关重要。过小的窗口可能导致结果波动较大，过大的窗口可能掩盖数据的真实趋势。

参考链接

通过这种方式，你可以高效地对数据框中的数字列应用变分函数和滚动平均函数，并创建新列。

相关搜索:从R中数据框中的现有列创建新的Race变量(使用case_when函数)使用for循环(或应用类型函数)生成在R中先前定义的向量中找到的具有特定名称的新列使用其他列的唯一字符串的函数中的数字创建新列在pandas groupby模式中，使用用户定义的函数，将其应用于多个列，并将结果分配给新的pandas列在R中使用函数和mapply创建对其他列求和的新列在R中创建一个函数，该函数将输入作为dataframe，对分组的列进行排序并生成序列。DF1中没有新的专栏在R中创建一个用户生成的函数，该函数根据其他列中的值创建一个新的日期列在R中是否有一个函数可以从一个函数在数据帧中创建一个新的列？在函数中仅使用DataFrame中的数字列在数据框中创建新列时，使用内置函数替换R中的多个if else语句

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

MIT正式发布编程语言Julia 1.0：Python、R、C++三合一

在过去一年中，研究者利用 Julia 在一台超级计算机上分析天文图像，速度提升了 1000 倍，在 15 分钟内将接近 2 亿个天体进行分类。从技术上来看，这种语言还会长期发展下去。然而，现在是一个里程碑的时刻：在本周于伦敦举办的 Julia 语言年会上，Julia 1.0 正式发布！一起发布的还有 JuliaCon。

04

学界 | MIT正式发布编程语言Julia 1.0：Python、R、C++三合一

在过去一年中，研究者利用 Julia 在一台超级计算机上分析天文图像，速度提升了 1000 倍，在 15 分钟内将接近 2 亿个天体进行分类。从技术上来看，这种语言还会长期发展下去。然而，现在是一个里程碑的时刻：在本周于伦敦举办的 Julia 语言年会上，Julia 1.0 正式发布！一起发布的还有 JuliaCon。

02

ICLR 2019 选集：聚焦样本受限问题

上周(5/6/19)，国际学习表征会议(ICLR)开幕了。在此，我想深入研究一些我认为有趣的ICLR论文，这些论文大多与我个人感兴趣的领域有关(无监督学习、元学习、注意力、NLP)，但我选择它们的原因却是因为它们在各自领域的高质量和影响力。本文第一部分将介绍在小数据集上深度学习领域的突破。第二部分将讨论在NLP和其他序列化数据方面的突破。最后的第三部分是我觉得有趣的杂七杂八的论文。

01

集 Python、C、R、Ruby 之所长，动态编程语言 Julia 1.0 正式发布

Julia 可以看作是一门集众家之所长的编程语言，在首次公开时开发团队就已明确其需求：

01

谷歌MLP-Mixer:用于图像处理的全MLP架构

图像处理是机器学习中最有趣的子区域之一。它从多层感机知开始，后来出了卷积，后来发展出是注意力机制，然后就是transformers，现在新的论文将又我们带回到MLP。如果您像我一样，您的第一个问题将是MLP如何获得与transformers和CNN几乎相同的结果？这是我们将在本文中回答的问题。谷歌新提出的“ MLP-Mixer”取得了与SOTA模型非常接近的结果，该模型是在大量数据上训练的，速度几乎是其三倍。这也是该论文中一个有趣的指标（图像/核心/秒）。

02

从 ICLR 2019 一览小样本学习最新进展！

AI 科技评论按：通常而言，深度学习是典型的数据驱动型技术，面对数据有限的情况，传统的深度学习技术的性能往往不尽如人意。在本届 ICLR 上，许多研究者们利用元学习、迁移学习等技术对小样本学习问题进行了探究，发表了多篇高质量论文，可谓百家争鸣！深度学习工程师 Isaac Godfried 在 Medium 上发表了一篇文章，基于今年 ICLR 上关于小型数据集深度学习研究的论文，探讨了目前小样本学习的最新进展。AI 科技评论编译如下。

02

YOLO-S：一种用于小目标检测的轻量级、精确的类YOLO网络

研究者提出了YOLO-S，一个简单、快速、高效的网络。它利用了一个小的特征提取器，以及通过旁路和级联的跳过连接，以及一个重塑直通层来促进跨网络的特征重用，并将低级位置信息与更有意义的高级信息相结合。

02

大模型落地的必经之路 | GPTQ加速LLM落地，让Transformer量化落地不再困难

来自Transformer家族的预训练生成模型，通常被称为GPT或OPT，已经在复杂语言建模任务中取得了突破性的性能，引起了广泛的学术和实际兴趣。它们的一个主要障碍是计算和存储成本，这些成本在已知模型中排名最高。例如，性能最好的模型变种，例如GPT3-175B，具有约1750亿参数，需要数十到数百个GPU年进行训练。甚至在作者本文中，对预训练模型进行推理的更简单任务也非常具有挑战性：例如，以紧凑的FP16格式存储时，GPT3-175B的参数占用326GB的内存。这超出了甚至最高端的单个GPU的容量，因此推理必须使用更复杂和昂贵的设置，如多GPU部署。

03

大模型落地的必经之路 | GPTQ加速LLM落地，让Transformer量化落地不再困难

来自Transformer家族的预训练生成模型，通常被称为GPT或OPT，已经在复杂语言建模任务中取得了突破性的性能，引起了广泛的学术和实际兴趣。它们的一个主要障碍是计算和存储成本，这些成本在已知模型中排名最高。例如，性能最好的模型变种，例如GPT3-175B，具有约1750亿参数，需要数十到数百个GPU年进行训练。甚至在作者本文中，对预训练模型进行推理的更简单任务也非常具有挑战性：例如，以紧凑的FP16格式存储时，GPT3-175B的参数占用326GB的内存。这超出了甚至最高端的单个GPU的容量，因此推理必须使用更复杂和昂贵的设置，如多GPU部署。

04

5G和5GHz Wi-Fi，这俩有啥差别？别再说你不知道了

5G和5 GHz Wi-Fi都用于无线连接，但它们没有任何其他共同之处。任何人提到的“5G Wi-Fi”实际上是指5 GHz Wi-Fi，这与5G蜂窝标准不同。

02

Diss所有深度生成模型，DeepMind说它们真的不知道到底不知道什么

深度学习在应用层面获得了巨大成功，这些实际应用一般都希望利用判别模型构建条件分布 p(y|x)，其中 y 是标签、x 是特征。但这些判别模型无法处理从其他分布中提取的 x，也就是说模型在没见过的数据上表现很差。例如，Louizos 等人表示仅仅旋转 MNIST 数字，模型就会预测错误。

01

【AI解梦大师】加州大学用机器学习算法来预测和分析梦境

【新智元导读】梦是神秘的一种主体经验，是哲学、宗教、心理学等最感兴趣的话题，也产生了许多有关的科学猜想。但人类从未真正理解梦的内容、机制和作用。我们能不能设计一种机器学习算法来预测和分析我们的梦境呢？答案是肯定的。在AI的帮助下，理解、预测和控制梦境的技术上已经取得了进展。

02

【19】ASP.NET Core 依赖注入

ASP.NET Core 提供以下 3 种方法来使用依赖项注入容器注册服务。我们使用的方法决定了注册服务的生命周期。

03

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

研究者提出了YOLO-S，一个简单、快速、高效的网络。它利用了一个小的特征提取器，以及通过旁路和级联的跳过连接，以及一个重塑直通层来促进跨网络的特征重用，并将低级位置信息与更有意义的高级信息相结合。

03

【React】345- React v16.9 新特性[译]

今天我们发布了 React 16.9。它包含了一些新特性、bug修复以及新的弃用警告，以便与筹备接下来的主要版本。

04

React组件设计模式之-纯组件，函数组件，高阶组件

如果你想写的组件只包含一个 render 方法，并且不包含 state，那么使用函数组件就会更简单。我们不需要定义一个继承于 React.Component 的类，我们可以定义一个函数，这个函数接收 props 作为参数，然后返回需要渲染的元素。

03

React组件设计模式-纯组件，函数组件，高阶组件

如果你想写的组件只包含一个 render 方法，并且不包含 state，那么使用函数组件就会更简单。我们不需要定义一个继承于 React.Component 的类，我们可以定义一个函数，这个函数接收 props 作为参数，然后返回需要渲染的元素。

02

【如何在 Pandas DataFrame 中插入一列】

Pandas是Python中重要的数据处理和分析库，它提供了强大的数据结构和函数，尤其是DataFrame，使数据处理变得更加高效和便捷。然而，对于新手来说，在DataFrame中插入一列可能是一个令人困惑的问题。在本文中，我们将分享如何解决这个问题的方法，并帮助读者更好地利用Pandas进行数据处理。

01

编码中学习：LLM 如何隐性的教导你

LLM 可以提供即时的、针对实际编程任务定制的知识；这是学习编码习语和库的绝佳途径。

01

让0消失术

经常有人问的一个问题是“如何不显示零？”，下面介绍几种实现方法，每种方法都有各自的优缺点，感兴趣的用户可以选择最适合自己情况的方法。

02

计算机领域的三个重要思想：抽象，分层和高阶

本文致力于概括本寒对计算机界三个重要思想的体会和认识。我希望做的并不是简单的百科全书式的列举（“A 体现了抽象思想；B 体现了分层思想…”），而是从这些思想中选取几个我个人较有体会（或者是我单纯觉得十分有趣）的侧面拿来细讲。这些侧面仅仅能覆盖这些思想应用范围中十分微小的一部分，它们并不是最有代表性的、亦非最为重要的——仅仅因为，我个人对这点侧面有些体会，或者我个人认为它比较有趣而已。

01

0x0 Python教程：入门pt2

本教程继续展示一些基本的Python脚本概念。我们将代码拉入脚本，函数，类和sys模块。

01

Java的字符串是值传递还是引用传递

这是Java的经典问题。关于stackoverflow，已经提出了许多类似的问题，并且有很多不正确/不完整的答案。如果您考虑不多，问题很简单。但是，如果您对此进行更多考虑，可能会造成混乱。

02

【AI解梦大师】加州大学用机器学习算法来预测和分析梦境

【导读】梦是神秘的一种主体经验，是哲学、宗教、心理学等最感兴趣的话题，也产生了许多有关的科学猜想。但人类从未真正理解梦的内容、机制和作用。我们能不能设计一种机器学习算法来预测和分析我们的梦境呢？答案是肯定的。在AI的帮助下，理解、预测和控制梦境的技术上已经取得了进展。

02

DeepMind新成果：通过删除神经元来理解深度学习

编者按：深度学习算法近年来取得了长足的进展，也给整个人工智能领域送上了风口。但深度学习系统中分类器和特征模块都是自学习的，神经网络的可解释性成为困扰研究者的一个问题，人们常常将其称为黑箱。但理解深度神经网络的工作原理，对于解释其决策方式，并建立更强大的系统至关重要。

00

DeepMind新成果：通过删除神经元来理解深度学习

编者按：深度学习算法近年来取得了长足的进展，也给整个人工智能领域送上了风口。但深度学习系统中分类器和特征模块都是自学习的，神经网络的可解释性成为困扰研究者的一个问题，人们常常将其称为黑箱。但理解深度神经网络的工作原理，对于解释其决策方式，并建立更强大的系统至关重要。近日，DeepMind 发布了其关于神经网络可解释性的最新研究成果，他们通过删除网络中的某些神经元组，从而判定其对于整个网络是否重要。核心发现有如下两点：可解释的神经元（例如“猫神经元”）并不比难以解释的神经元更重要。泛化性良好的网络对于

02

【信息图】神经网络动物园前序：Cell与层之间如何连接

【新智元导读】此前介绍的神经网络动物园让大家大饱眼福，看到了各种各样的神经网络模型。今天带来更为基础的介绍：组成神经网络模型的基本单元和层是怎么样的？通过信息图表，作者介绍了最基础的单元、长短期记

06

JavaScript糟粕部分

JavaScript有两组相等的运算符：===和!==，以及他们邪恶的孪生兄弟==和!=。===和!==运算符能够按照你期望的方式工作。如果两个运算数类型一致且拥有相同的值，那么===就返回true，!==返回false。但是**==和!=**只有在两个运算符类型一致时才会做出正确的判断，如果两个运算数是不同的类型，他们试图去强制转换值的类型。转换的规则复杂难以记忆。下面的一些有趣的例子：

01

深度 | DeepMind提出神经元删除法：通过理解每个神经元来理解深度学习

选自DeepMind 机器之心编译近日，DeepMind 发表博客介绍其对神经网络可解释性的最新研究成果。受神经科学启发，他们通过删除神经元来探索其对网络性能的影响。研究发现，和过去的经验直觉相反，选择性神经元（如「猫神经元」）对于网络的泛化能力并不重要。而某些行为难以理解的非选择性神经元却是不可或缺的。此外，作者还对比了泛化好和记忆好的网络对删除操作的响应行为。深度神经网络由很多独立的神经元组成，这些神经元以一种复杂而反直觉的方式结合，从而完成一系列的挑战性任务。这一复杂性保证了神经网络的效力，但也使

05

SQL的未来：会话式解决问题

借助 JSON 和 CTE 等现代 SQL 功能，大型语言模型可以成为帮助加速学习和工作的“推理伙伴”。

01

Caché 变量大全 $ZTIMEZONE 变量

$ZTIMEZONE包含从格林威治子午线偏移的时区（以分钟为单位）。（格林威治子午线包括整个英国和爱尔兰。）此偏移量表示为-1440到1440范围内的有符号整数。格林威治以西的时区指定为正数；格林威治东部的时区指定为负数。（时区必须以分钟为单位，因为并非所有时区都以小时为单位。）默认情况下，$ZTIMEZONE初始化为计算机操作系统设置的时区。

02

程序员们必须在工作中不断的学习成长

IT 行业是一个变化非常快的行业，它需要我们持续去学习新的知识和技能。但是，工作以后，我们经常会发现自己学习的东西很少了，倒不是没有时间去学习，而是学习的效率太低了。久而久之，就演变成『一年的工作

05

无监督训练用堆叠自编码器是否落伍？ML博士对比了8个自编码器

深度学习中的自编码器。图源：https://debuggercafe.com/autoencoders-in-deep-learning/

01

了解关键区别：await vs return vs return await

异步编程是现代 JavaScript 开发中一个重要方面，它使我们能够处理耗时的操作，而不会阻塞其他任务的执行。使用异步函数时，我们会遇到三个重要的关键字：await 、return、return await。在本文中，我们将探讨这些关键字之间的差异，并讨论何时使用每个关键字。

01

基础知识 | 每日一练（67）

士人有百折不回之真心，才有万变不穷之妙用。立业建功，事事要从实地着脚，若少慕声闻，便成伪果；讲道修德，念念要从虚处立基，若稍计功效，便落尘情。 ——菜根谭

计算的表示

当提到「计算」这个词的时候，我们会想到什么，是想到「计算机」，或是「图灵机」，又或是操控计算机的「汇编语言」，还是说「1 + 1」这样的算式？这些都是计算，但它们都是计算的一种表示而非计算本身，计算本身是一个更加本质的东西，可以认为是一种柏拉图型相，或是理念，刚刚说到的东西都是对它的摹仿。

01

无服务器云技术逐渐消失

无服务器曾经风靡一时，但现在似乎已经过时了，尽管其基本要素，敏捷性和可扩展性，仍然具有现实意义。

01

论文解读: streaming-LLM 使各种模型稳定、高效地处理长达400万tokens的文本

为了保持论文中原汁原味的语义信息，保留相关原文，没有刻意翻译成中文，避免造成误解。

02

Async/Await 语法简介

如果你在应用程序的后端使用过JavaScript进行编码，你可能对"promises"（承诺）有所了解。如果你对JavaScript中的承诺及其与代码的关系不太熟悉，它们基本上用于表示异步函数的最终调用/成功/失败。异步函数或操作是不在解释时运行的函数，可以与其他操作并行运行。相反，同步代码一次只运行一个操作，没有能力同时发送多个请求。

01

JavaScript注意点：Array.prototype.map

简单结论：因为map传递3个参数，parseInt接收2个参数，额外的参数导致了出错。如果是parseFloat就没问题了，因为parseFloat只接受1个参数。

01

稳定、快速、自动的预测编码算法

预测编码网络是受神经科学启发的模型，根源于贝叶斯统计和神经科学。然而，训练这样的模型通常效率低下且不稳定。在这项工作中，我们展示了通过简单地改变突触权重更新规则的时间调度，可以得到一个比原始算法更高效稳定且具有收敛性理论保证的算法。我们提出的算法被称为增量预测编码（iPC），与原始算法相比，在生物学上更加合理，因为它是完全自动的。在一系列广泛的实验中，我们展示了在大量图像分类基准测试以及条件和掩码语言模型的训练方面，iPC在测试准确性、效率和收敛性方面始终优于原始表述，针对大量超参数集。

01

10个你每天都需要用到的Javascript代码片段

英文 | https://medium.com/dev-genius/10-useful-javascript-code-snippets-that-you-need-everyday-2de5c4ef79c6

06

流畅的 Python 第二版（GPT 重译）（九）

迭代对于数据处理是基础的：程序将计算应用于数据系列，从像素到核苷酸。如果数据不适合内存，我们需要惰性地获取项目——一次一个，并按需获取。这就是迭代器的作用。本章展示了迭代器设计模式是如何内置到 Python 语言中的，因此您永远不需要手动编写它。

01

违背常识、颠覆认知，终于有人把薛定谔的猫讲明白了

导读：在20世纪30年代中期，新兴量子理论的某些奇怪之处变得明显起来，薛定谔进行了一个思想实验，即“薛定谔的猫”。他试图表明，量子理论数学一定是缺了些什么。他认为“猫不能处于一种生死叠加的状态”是一个基本事实，因此量子理论数学肯定是忽略了某些因素。

03

Python 数据科学手册 5.2 Scikit-Learn 简介

有几个 Python 库提供一系列机器学习算法的实现。最著名的是 Scikit-Learn，一个提供大量常见算法的高效版本的软件包。 Scikit-Learn 的特点是简洁，统一，流线型的 API，以及非常实用和完整的在线文档。这种一致性的好处是，一旦了解了 Scikit-Learn 中一种类型的模型的基本用法和语法，切换到新的模型或算法就非常简单。

01

手把手教你学会Python函数式编程

在这篇文章里，你将学会什么是函数范式以及如何使用Python进行函数式编程。你也将了解列表推导和其它形式的推导。

02

零成本体验StyleGAN2：Colab代码直接使用，细节逼真难以分辨

最近英伟达在 GAN 领域最大的研究突破莫过于 StyleGAN2 了。这一新的研究提升了生成图像的质量，实现了最新的 SOTA。论文公开的同时，英伟达也公开了相关的代码和 Colab 笔记，你可以直接在线使用。

02

全新近似注意力机制HyperAttention：对长上下文友好、LLM推理提速50%

Transformer 已经成功应用于自然语言处理、计算机视觉和时间序列预测等领域的各种学习任务。虽然取得了成功，但这些模型仍面临着严重的可扩展性限制，原因是对其注意力层的精确计算导致了二次（在序列长度上）运行时和内存复杂性。这对将 Transformer 模型扩展到更长的上下文长度带来了根本性的挑战。

05

Google && 耶鲁 | 提出HyperAttention，使ChatGLM2-32K 推理速度提升50%！

Transformer 已经成功应用于自然语言处理、计算机视觉和时间序列预测等领域的各种学习任务。虽然取得了成功，但这些模型仍面临着严重的可扩展性限制，原因是对其注意力层的精确计算导致了二次（在序列长度上）运行时和内存复杂性。这对将 Transformer 模型扩展到更长的上下文长度带来了根本性的挑战。

02

《AN4190应用笔记天线选择指南》——天线理论1

引言天线是通信系统非常重要的组成部分。根据定义，天线是用来将在导体上传输的射频信号转换为自由空间中的电磁波（发送模式），以及将射频电磁波转换为电信号（接收模式）的设备。天线的选择对于发射-接收通信系统非常重要。天线必须能够有效地进行辐射或接收，这样就不会浪费所提供的电力。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭