首页
学习
活动
专区
圈层
工具
发布

本地部署阉割版DeepSeek或其他大模型的方法

本文介绍在Windows电脑中,本地部署DeepSeek等大模型的方法。   ...,除了会think一下显得很高级之外,感觉完全没有通义等其他免费浏览器直接访问的大模型好用。   ...(比如内网环境使用),或者后期又有其他新的开源大模型需要本地部署尝鲜的,还是可以参考。   ...ollama run deepseek-r1:8b   其中,deepseek-r1:8b就是我前面下载的8b版本的DeepSeek;如果大家下载的是其他参数的版本,或者下载的是其他开源的大模型,那么就需要修改一下代码...随后,选择我们所下载的模型,如下图所示。   接下来,就可以在Chatbox AI中,用可视化的方法,与DeepSeek交流了,如下图所示。   至此,大功告成。

48910
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Vision Mamba:将Mamba应用于计算机视觉任务的新模型

    Mamba是LLM的一种新架构,与Transformers等传统模型相比,它能够更有效地处理长序列。...这种方法解决了可视数据固有的位置敏感性,这是传统Transformer模型经常遇到的一个关键问题,特别是在更高分辨率下。...与用于文本序列建模的Mamba模型不同,Vim编码器在正向和反向两个方向上处理标记序列。 还记得双向LSTM么,Vim的一个突出特点是它的双向处理能力。...总结 论文介绍了一种将Mamba用于视觉任务的方法,该方法利用双向状态空间模型(ssm)进行全局视觉上下文建模和位置嵌入。...这种方法标志着传统的注意力机制可能会退出历史的舞台,因为VIM展示了一种有效的方法来掌握视觉数据的位置上下文,而不需要基于transformer的注意机制。

    6.6K10

    RoSA: 一种新的大模型参数高效微调方法

    随着语言模型不断扩展到前所未有的规模,对下游任务的所有参数进行微调变得非常昂贵,PEFT方法已成为自然语言处理领域的研究热点。...PEFT方法将微调限制在一小部分参数中,以很小的计算成本实现自然语言理解任务的最先进性能。 (RoSA)是一种新的PEFT技术。...并解释为什么它的性能标志着有意义的进步。对于那些希望有效地微调大型语言模型的人来说,RoSA提供了一种新的解决方案,该解决方案优于以前的方案。...Robust Adaptation (RoSA) Robust Adaptation(RoSA)引入了一种新的参数高效微调方法。...这些架构选择为RoSA建模提供了类似于完全微调的灵活性,同时保持了优化和推理的参数效率。利用这种结合鲁棒低秩自适应和高度稀疏残差的PEFT方法,RoSA实现了精度效率折衷的新技术。

    68110

    新火种AI | 马斯克的AI大模型来了!其他AI不能回答的问题,它能回答吗?

    这不就在最近,马斯克旗下的AI团队便放出大招,推出了首个AI大模型产品——Grok。马斯克旗下首个AI模型亮相,主打“叛逆幽默有个性”。...有意思的是,Grok还可以在特斯拉的车载系统中运行。在其他方面,Grok的实力也不容小觑。...在基于中学数学问题和 Python 编码任务的第一轮测试中,Grok 超越了包括ChatGPT-3.5和Inflection-1在内其他模型。...有意思的是,按照马斯克本人的说法,不同于其他的AI产品,Grok是有点“逆鳞”在身上的,Grok十分的幽默和叛逆,按照官网的说法,“Grok会带着一丝机智和叛逆精神来回答问题。...可耐人寻味的是,他一边发表着反对的态度,一边大张旗鼓的成立了自己的人工智能公司XAI,更大力出奇迹,在近期推出了首个AI大模型Grok。

    37470

    Bing研究人员开发新的方法,用于自动收集高质量AI训练数据

    微软Bing团队的研究人员已经开发出一种用于训练机器学习模型的高质量数据生成方法。...Bing团队的模型清除了来自语料库的噪音数据。 但并不是每个结果都与搜索类别相关,并且训练数据中的错误可能会导致机器学习模型中的偏差和不准确性。...减少错误标记问题的一种方法是通过训练第二种算法找出不匹配数据并纠正它们,但这是一个处理密集型解决方案; 必须为每个类别训练一个模型。 Bing团队的方法采用了AI模型,可以实时纠正错误。...随着训练的进行,系统的设计方式使得如果图像是类别中的一部分,则类别嵌入向量和查询图像向量变得越来越相似,如果不是类别的一部分,则进一步分离。 该系统最终识别它用于为每个类别找到高度代表性图像的模式。...该团队说,它甚至可以在没有手动确认标记的情况下进行工作。 该团队写道,“这种方法对于为图像相关任务清理训练数据非常有效,我们相信它同样适用于视频,文字或演讲。”

    55830

    好文速递:应用于卫星遥感的地统计模拟模型综述:方法与应用

    这些模型通常在地球科学的多个领域中使用,并且近年来,它们已广泛应用于遥感数据。这项研究对地统计学模拟在遥感数据中的应用进行了首次综述。...我们回顾了与卫星遥感数据有关的最新地统计模拟模型,并讨论了每种方法的特征和优势。最后,每种地统计学模拟模型的应用都归类于自然科学的不同领域,包括土壤,植被,地形和大气科学。...1.地统计模拟方法 地统计模拟方法是有用的工具,可以生成空间现象的几个同样可能的实现。这些多重实现可用于量化所生成模式的不确定性。...在许多情况下,仅光谱信息是不够的,并且可能需要光谱和空间信息的组合。 地统计模拟方法最近已被用于不同目的的遥感数据,例如缩减规模,采样设计,不确定性量化和制图。...利用SIS生成土壤硝态氮空间分布的两种认识 3.总结 本文介绍了用于处理卫星遥感数据的地统计模拟模型及其不同应用领域的概况。这证明了广泛的遥感应用,在这些应用中,地统计模拟的使用可能很有价值。

    68830

    INSTRUCTEVAL:一个专用于的大型语言模型(LLMs)的全面评估方法

    为此,今天给大家分享的这篇文章:提出了一个「专门针对指令调优大型语言模型的全面评估方法INSTRUCTEVAL」,该评估方法可以从问题解决、写作和人类价值对齐等三个方面对模型进行全面评估。...「出现这种情况的主要原因是许多模型的black-box性质,以及目前对于指令调优大型语言模型缺乏深入和整体的评估研究」。  ...该套件专用于对指令调优大型语言模型的全面评估,相比之前对LLMs的评估方法,该评估策略不仅详细评估了模型解决问题的能力、文字写作能力,而且还严格评估了模型与人类价值的对齐能力。...「开源指令LLMs」 在考虑了支持指令LLMs的预训练基础模型和数据收集后,作者整理基础模型、模型大小、指令数据集和每个指令LLM使用的训练方法。...基准包含61个与诚实相关的,59个与帮助相关的,58个与无害相关的,以及43个来自“其他”类别的样本。下表展示了每个类别的示例: 实验结果  下表展示了指令LLMs在「问题解决能力上的评估结果」。

    63720

    【视频目标分割】开源 | 一种新的无监督学习方法用于视频目标分割

    备注:研究方向+地点+学校/公司+昵称,更快通过申请,长按加细分领域技术交流群,目前有细分领域:图像分割、图像目标检测、论文写作、车道检测、模型优化、目标跟踪、SLAM、点云处理(分割检测)、深度学习。...Darmstadt 论文名称:Dense Unsupervised Learning for Video Segmentation 原文作者:Nikita Araslanov 内容提要 本文提出一种新的无监督学习方法用于视频对象分割...与之前的工作不同,我们的公式允许在完全卷积的范围内直接学习稠密特征表示。我们依靠统一网格采样来提取一组锚点,并训练我们的模型,以消除它们之间在视频内部和内部的水平的歧义。...然而,一个简单的方案训练这样一个模型的结果是退化解。我们建议用一个简单的正则化方案来防止这种情况,将分割任务的等方差特性适应于相似度转换。我们的训练目标能够有效地实施,并展现出快速的训练收敛性。...在已建立的VOS基准上,尽管使用了明显较少的训练数据和计算能力,我们的方法但仍超过了以前工作的分割精度。 主要框架及实验结果

    81620

    这种方法适用于任何字符串属性的长度排序,只需将代码中的 name 替换为实际需要排序的属性名即可。

    除了 Lodash 的 ​​_.sortBy()​​ 方法,还可以使用以下几种方式实现对对象数组按属性值长度排序:1....Lodash 的 ​​_.orderBy()​​ 方法​​_.orderBy()​​ 比 ​​_.sortBy()​​ 更灵活,支持指定排序方向(升序/降序):const _ = require('lodash...原生 JavaScript 的 ​​Array.sort()​​ 方法不依赖 Lodash 时,可直接使用数组原生的 ​​sort()​​ 方法:const items = [ { id: 1, name...Lodash 的 ​​_.sortWith()​​ 方法(自定义比较器)对于更复杂的排序逻辑,可以使用 ​​_.sortWith()​​ 配合自定义比较器函数:const _ = require('lodash....sortWith()​​支持复杂比较逻辑多条件组合排序实际开发中可根据项目是否已引入 Lodash 以及排序复杂度选择合适的方法。

    25410

    基于重排序的新量化方法RPTQ:实现大型语言模型的 3 比特量化

    机器之心专栏 机器之心编辑部 作者提出了一种新颖的基于重排序的量化方法 RPTQ,解决了量化大型语言模型激活的问题。...然而,对 LLMs 中的激活进行量化仍然是一项具有挑战性的任务。 从图 1 中可以得出两个观察结果: 1)一些通道具有显著的异常值,其最大或最小值比其他通道大几百倍。...这种方法为每个簇单独计算量化参数(缩放因子 s 和零点 z),确保这些参数专门针对相应的通道。 最终,该方法确保了每个簇的量化都得到优化,减少了量化误差。...此外,作者还开发了一种新的量化方案,W4A4KV、W4A3KV 和 W3A3KV,只对主要内存的消耗 —— 键缓存和值缓存(Key/Value Cache)进行量化。...根据表格,可以得出以下观察结果:一般而言,随着激活量化位宽的减少,模型的性能会下降。但在大多数情况下,这种退化并不显著。对于某些任务,性能下降不到 1%,甚至有所提高。

    88520

    【文献阅读】Split-KalmanNet:一种鲁棒的基于模型的深度学习方法用于状态估计

    关键词:卡尔曼滤波,基于模型的深度学习,状态空间模型,序贯状态估计 文章正文 0、引言 从含有噪声的测量中实时估计离散状态空间模型(SS)的状态这个问题,是信号处理中的一项关键任务并应用于各种领域,比如目标跟踪和定位...许多努力被用于将KF扩展到更一般的SS模型。 最广泛的应用于非线性SS模型的状态估计算法是EKF算法。...尽管应用广泛,这种基于模型的在线估计方法容易受到物理和统计模型不匹配的影响,当这个影响明显时,结果可能发散。...在这篇文章中,介绍一种称为Split-KalmanNet的深度学习方法用于状态估计。我们的算法基于模型实现,主要概念时使用两个并行的DNNs对先验状态估计和新息协方差矩阵进行单独训练。...尽管如此,当 和 中的一个失配占据主导位置时,这种卡尔曼增益的联合学习方法可能会导致性能损失。例如,主要的不匹配为测量误差 阻碍了学习状态协方差矩阵 。

    1.1K10

    PiSSA :将模型原始权重进行奇异值分解的一种新的微调方法

    (PiSSA)方法。...PiSSA和LoRA一样,都是基于这样的前提:对模型参数的改变会形成一个低秩矩阵。 这种方法通过将模型中的矩阵表示为两个可训练矩阵的乘积,辅以一个用于错误校正的残差矩阵,优化了紧凑的参数空间。...PiSSA与LoRA的架构相一致,继承了诸如可训练参数减少、轻松部署等好处。但是与LoRA不同,使用PiSSA进行微调的过程与完整模型过程相似,会避免无效的梯度步骤和次优结果。...在LLaMA 2-7B、Mistral-7B-v0.1和Gemma-7B模型的多个任务的比较实验中,PiSSA凭借卓越的表现脱颖而出。以主奇异值和向量初始化的微调适配器产生了更好的结果。...论文中将奇异值分解应用于预训练模型的权重矩阵,以提取主要成分。然后使用这些成分来初始化一个名为PiSSA的适配器。微调PiSSA在开始阶段可以密切复制完整模型微调的效果,同时保持良好的参数效率。

    61010

    用于轨迹预测的多模态深度生成模型:一种条件变分自编码器方法

    我们注意到,这些方法可以在其他维度上进行不同的分类(例如,模型是否产生概率或确定性预测)。...(第三节),(iii)展示该模型的优点,重点在于其对多智能体设置的可扩展性、异构数据的使用,以及生成基于动力学模型的输出轨迹分布的分析表示的能力(第四节和第五节),(iv)将这种方法的性能与其他最先进的现象学方法进行比较...不幸的是,简单地按照每个时间步重新创建一个新的STG并应用上述建模方法将是昂贵且低效的,因为它不会回收可能在多个时间步中持续存在的信息(例如,跟踪哪些边是新的、已建立的或最近删除的)。...这种方法的一个主要优点是在线更新速度快,因为模型的状态表示只需要几次矩阵乘法运算就可以捕捉到新的观察结果[7]。这在机器人用例中尤其重要,因为机器人用例通常需要实时从流数据在线运行。...在非线性动力学的情况下(例如,用于模拟车辆的单轮模型),仍然可以(近似地)通过线性化有关代理当前状态和行为的动力学来使用这种不确定性传播方案。

    1.8K40

    最新最简易的迁移学习方法,人员再识别新模型 | AI一周学术

    由于能够进行连续的AKI预测,新模型可以应用于回避过去的预测模型所面临的诸多缺点,将住院患者从直接肾衰竭引起的众多痛苦中拯救出来,并从根本上降低之后的医疗成本。...另外,该框架具有广谱性,也可用于从EHR数据持续预测其他疾和障碍。...基于随机预测模型的基于模型的RL是一种很有前途的、高效的替代无模型RL的方法,因为它可以用于生成高保真的模拟环境,以及用于机器人和自动驾驶等高端应用的真实世界数据。...由于以前的方法依赖于有监督的学习,这种学习需要有标记序列的基本事实,因此研究人员现在已经提出了一种无监督的深度激光雷达测程法。...与传统方法不同,新的统一方法允许人工智能设计者创建性能更好的集成RL算法。

    59831

    Ecography:群落系统发育结构度量和零模型:新方法和新软件的综述

    ,可以与9个零模型相结合,提供278个潜在的独特方法来测试系统发育的聚类和分散性。...作者开发了一个新R包,metricTester,来进行各种系统发育及零模型的分析。...这种方法的显著优点是不需要参考物种池,因此这些指标能够超越现有的系统发生和群落数据矩阵的细节,并允许直接比较原始的指标值。但是其实PSV和PSC分别与MPD和MNTD成正比。...作者建议应将系统发育群落结构方法视为一组可能的指标和一组可能的零模型(如重复矩阵的随机化),其中任何一种都可以组合成一种独特的指标+零模型方法。...这个零模型被设计用来模拟每个物种的个体在区域池中的分布情况,其与物种的丰度成比例。这种方法允许在没有本地群落动态干扰零模型期望的情况下检测出中性分散的偏差。

    7.1K41

    独家 | 将时间信息编码用于机器学习模型的三种编码时间信息作为特征的三种方法

    标签:时间帧,机器学习,Python,技术演示 想象一下,你刚开始一个新的数据科学项目。目标是建立一个预测目标变量Y的模型。...该DataFrame 将用于使用不同的特征工程方法比较模型的性能。 创建与时间相关的特征 在本节中,我们描述了生成时间相关特征的三种方法。 在深入研究之前,应该定义一个评估框架。...这样做是为了避免熟知的虚拟变量陷阱(完美多重共线性)。 在我们的示例中,我们使用虚拟变量方法来捕获记录观察的月份。同样的方法可用于指示来自DatetimeIndex的一系列其他信息。...这同样适用于其他与时间相关的信息。 那么我们如何将这些知识融入到特征工程中呢?三角函数是一种办法。 我们可以使用以下正弦/余弦变换将循环时间特征编码为两个特征。...在我们讨论第三种特征工程技术之前,值得一提的是,这种方法有一个严重的缺点,这在使用基于树的模型时很明显。根据设计,基于树的模型当时基于单个特征进行拆分。

    2.7K30

    持续学习常用6种方法总结:使ML模型适应新数据的同时保持旧数据的性能

    解决这类问题的常用方法是在包含新旧数据的新的更大数据集上对整个模型进行再训练。但是这种做法往往代价高昂。...所以有一个ML研究领域正在研究这个问题,基于该领域的研究,本文将讨论6种方法,使模型可以在保持旧的性能的同时适应新数据,并避免需要在整个数据集(旧+新)上进行重新训练。...要使此方法成为值得考虑的方法,它必须能够在旧数据上保留老模型> 80%的性能,同时提示也应该帮助模型在新数据上获得良好的性能。 这种方法的缺点是需要使用提示池,这会增加额外的时间。...目前看没有其他人在这个领域使用这种方法,所以结果可能不是最好的,但如果你在文本分类上使用这种方法应该会得到不错的结果。...检索增强也用于许多其他情况,例如单词生成或回答事实问题。

    1K30

    大模型可解释性新范式:从“回路分析”到“表征解耦”的方法论演进

    大模型可解释性新范式:从“回路分析”到“表征解耦”的方法论演进引言:可解释性研究的范式转移随着大语言模型(LLMs)参数量突破万亿级别,传统的可解释性方法面临根本性挑战。...早期基于"回路分析"(Circuit Analysis)的方法尝试在Transformer架构中定位特定功能的计算路径,但这种"局部解剖"策略在大模型面前显得力不从心。...:通过概念方向编辑模型行为可扩展性:方法复杂度与模型规模线性相关第三部分:方法论融合与进阶技术混合方法:回路引导的表征解耦结合两种范式的优势,我们提出回路引导的表征解耦方法:class CircuitGuidedDisentanglement..._project_out_concept(concept_idx) elif editing_method == 'retraining': # 重训练方法:在保留其他概念的同时抑制不良概念...表征解耦不仅提供了更高效的分析工具,更重要的是,它开启了模型可操纵性的新可能——我们可以通过编辑概念方向来精确控制模型行为。

    24210
    领券