首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python面试简历分享。

项目一介绍:智能数据分析平台 开发一个软件质量评测项目,项目属于web项目,主要负责后台方法编写、部署,前端略有参与,项目分多个阶段,着重介绍2个阶段: 第一阶段:(着重后端方法编写) 缺陷自动分类功能实现...,根据缺陷(bug)的标题、描述等相关特征信息,对缺陷严重程度等级(1-6)级进行分类,用到相关技术: 1、常用的建模/数据分析方法编写,处理缺失值、数据离散化、归一化、one-hot编码、字符串索引、...,采用django搭建后台,前端通过拖拽数据处理功能的操作,将数据/数据处理流程/建模方法等数据传到后端,后端根据传过来的参数,结合第一阶段编写好的方法对数据进行处理建模,并将结果返回前端进行相关图表展示...常见数据处理与分析库 第三阶段:(仿真测试缺陷预测) 根据公司内部测试数据,研究性预测每个项目仿真测试缺陷数,数据特征比较多,挑选了一些影响关系大的因子,开发人员经验、开发时间、项目类别等,并对离散型特征通过...one-hot和分箱转化成数值参与模型运算,在建模过程中,考虑到不同特征下预测结果不一样,编写随机算法选择特征与手动选择特征进行结果比较,也通过在相同特征下选择不同的算法模型进行预测,得出结果进行比较,

3K42

106-Django开发在线交易网站

设计数据库模型:使用Django ORM设计数据库模型,如用户(User)、产品(Product)、购物车(Cart)、订单(Order)等。...环境搭建安装Python和Django:确保你的开发环境中安装了Python和Django。...数据看板使用Django ORM进行查询:编写查询来检索销售、订单和其他统计信息。使用Django模板和图表库:在模板中显示数据,并使用图表库(如Chart.js)创建可视化图表。6....产品功能搜索:实现搜索功能,允许用户按名称、描述或类别搜索产品。购买:实现购买流程,包括将产品添加到购物车、结算和创建订单。请求报价:实现一个表单,允许用户为特定产品请求报价。...批量采购:允许用户选择多个产品并一起购买。交货收据:创建订单交付后的收据,并允许用户下载或打印。7. 通知和地址管理电子邮箱通知:使用Django的邮件发送功能发送订单确认、交货通知等电子邮件。

10010
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    数据分类分级-敏感图片识别

    但是,事先开发的模型很难覆盖所有的敏感图像类别,如果在使用过程中不断引入新的敏感图像类别,同时更新和优化模型,这无疑显著地增加了使用和维护成本。...其核心的工作原理如下:录入过程中,系统将多个角度的人脸图片使用深度神经网络提取的特征进行融合并存储,而在使用过程中,系统再次使用深度神经网络提取人脸特征,并与存储的特征进行比对,达到一定相似度即可。...开发者则使用度量学习的技术训练好用于人脸特征提取的神经网络,来保证产品的核心功能正常运作。...类似的,如果我们训练一个能很好的提取证件、票据类图片的特征的神经网络,并且将敏感图片的特征存储在系统中,在扫描时只需要比较提取的特征与系统中敏感图片进行比较就行。...而在几何验证阶段,我们发现用DINO自监督预训练的模型效果最好。

    35920

    基于 Django 的个人网站(1)

    Django 的安装 在开始之前,我们首先需要安装 Django。...因为一个类别下面有多篇文章,一个文章也有可能对应着多个类别,所以文章和类别属于多对多关系(当然也可以定义成一个类别有多篇文章,一个文章只对应一个类别的一对多的关系)。...接着打开 personal_website\models.py 去编写 Model 层的代码,在编写代码之前我们需要考虑其中的多对多关系该怎么设置,因为考虑到是根据文章选择类别,所以我们把文章这个类下面定义一个类别属性...既然是类别,我们只需要显示对应的名称就行了,这个问题解决起来很简单,去重写模型类的__str__魔法方法,personal_website\models.py 的代码如下: from django.db...虽然说后台已经基本上算是完成了,但是在文章内容方面还是有些缺陷的,比如内容中只能是字符,图片什么的都无法写入,解决这个问题有两个方法——markdown 和富文本编辑器,我选择富文本编辑器,Django

    1.4K20

    推荐 | 收藏备用:大数据分析工具采购指南

    下面我们将介绍在评估各种大数据分析工具符合企业需求的程度时可能用到的必备特性和特定属性。然后,你再编写一个预案请求(RFP),说明使用这些工具将如何解决组织的需求。 评估标准 建模技术的广度与深度。...建模技术的深度反映了所使用方法的两个方面特征:支持更精准开发模型的算法成熟度和建模技术的灵活性。...与现有平台组件的互操作性。如果要在一些传统数据管理和BI技术中混搭分析方法,那么这一点非常重要。例如,许多分析工具支持通过传统的SQL查询去调用分析模型。...确定产品是否提供了方便开发和分析的可视化方法。 部署不同业务用例的灵活性。相同的算法方法可以应用到许多不同行业的不同业务场景中。...性能 大多数高端Hadoop平台和专业设备在设计上都支持多个并行处理和分布式计算的计算节点。如果要求较高的运行性能,那么很重要的一点是所评估的产品是否支持大规模并行处理(MPP)系统配置。

    98390

    【数据清洗 | 数据规约】数据类别型数据 编码最佳实践,确定不来看看?

    编码的意义不用对变量归一化,加速参数的更新速度;使得一个很大权值管理一个特征,拆分成了许多小的权值管理这个特征多个表示,降低了特征值扰动对模型的影响,模型具有更好的鲁棒性,将数据转换成可训练的格式编码优缺点定类变量异常数据具有很强的鲁棒性...在线性模型中,如果有截距项,使用哑变量编码可以处理多余的自由度,因为多余的自由度可以被统摄到截距项中。这意味着,当使用哑变量编码时,只需要使用n-1个哑变量来表示n个类别,其中n是类别的数量。...这种编码方式通常用于特定需求的模型,例如需要明确控制每个类别的影响。 总之,截距项在线性模型中是一个重要的参数,它对应于自变量取值为零时的因变量取值。...对数值大小不敏感的模型(如树模型)不建议使用one-hotencoding选择建议:算法上:最好是选择正则化 + one-hot,哑变量编码也可以使用,不过最好选择前者。...无论增益多大,乘以该比例之后几乎可以忽略);实现上:哑变量在pandas的get_dummy方法,one-hot在from sklearn.preprocessing import OneHotEncoderpandas

    23600

    FB开源深度学习推荐模型

    DLRM 通过结合协同过滤算法和预测分析方法,提供了推荐系统当前最优效果。 随着深度学习的发展,基于神经网络的个性化和推荐模型成为在生产环境中构建推荐系统的重要工具。...DLRM 模型使用嵌入处理类别特征,使用下方的多层感知机(MLP)处理连续特征。...DLRM 模型处理描述用户和产品的连续(密集)特征和类别(稀疏)特征。该模型使用了大量硬件和软件组件,如内存容量和带宽,以及通信和计算资源。 ‍...这些模型实现允许我们对比 Caffe2 框架和 PyTorch 框架,以及 Glow。或许最重要的一点是,未来我们可以从每个框架中选出最好的特征,然后组合成一个框架。 ?...例如,为了达到高性能,很多服务在单个机器上对输入执行批处理并分配多个模型,从而在不同平台上实现并行化推断。

    77410

    终于有内味了......

    通过利用专家的多门混合优化多个目标。此外,还可以利用无偏学习来减少训练数据中的选择偏差。在JD真实生产数据集上的实验证明了DMT的有效性,它显著优于现有的方法。...如果一个产品被同一类别中的许多相似产品包围,用户可能不太可能单击该产品。...模型 ? 输入和Embedding层 我们将输入分为两块,一块是类别特征;一类是dense特征. 1....类别特征 类别特征包含两类特征: 用户的行为序列: , 其中为序列的长度; 里面的每个元素表示用户在商品上进行了操作;本文我们主要考虑三种序列::点击序列; :加购序列; :下单序列; Embedding...学习得到的位置embedding方法相较于其它方案可以获得最好的效果; 2. 多个序列的影响 ?

    74540

    【干货】随机森林的Python实现

    【新智元导读】在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林几乎是任何预测类问题(甚至非线性问题)的首选。...我们在Yhat自己的为数据分析而建的交互环境 Rodeo 中编写 Python 代码。可在这里下载Rodeo:https://www.yhat.com/products/rodeo。...在下面的例子中,我们试图找出哪些变量在将酒分类为红酒和白酒的任务中最重要。 ? ? 分类 随机森林也很擅长分类任务。它能用于对具有多个可能值的类别进行预测,也能被校准来输出概率。...引起过拟合的原因之一是在模型中只使用真正相关的特征。虽然不是固定的方式,但使用一些特征选择技术(例如前文提到的)可以避免过拟合。 ?...多数时候我会从简单的地方开始,再转移到随机森林。 随机森林在 scikit-learn 中实现得最好的特征之一是 n_jobs 参数。它会根据你想要使用的核的数量自动并行拟合随机森林。

    1.9K50

    django 快速入门

    Django是Python语言编写的一个全栈式Web框架,可以帮助我们快速编写一个具有数据库功能、增删查改、后台管理等功能的网站。假如你只需要一些很简单的功能,使用flask可能是个更好的选择。...我们要做的就是在模型中指定和数据库的关系。 打开hello app中的models.py文件,然后添加下面两个模型。这两个模型是宠物和主人的关系。...>>> import django >>> django.setup() 不管是用哪种方法,都可以打开shell,在这里面就可以使用API操作数据了。首先引入我们的模型。...页面中使用URL 当我们在页面中需要使用路径的时候,不要硬编码路径,最好使用url标签。例如下面这样的。...需要注意的是,由于前面介绍的django文件搜索机制,在静态文件夹中,我们最好在指定一级和app同名的文件夹用来区分不同app间的静态文件。

    1.9K60

    11.寻光集后台管理系统-产品信息(后端)

    从需求分析中可以看出,业务基本上是围绕着「产品」的 订单中的伴手礼是由多个产品组成 库存中的入库和出库的也是某一个产品 产品应用 创建产品应用 python -m manage.py startapp...product 将新建的product文件夹移动到apps文件夹下 注册产品应用 在backend/LightSeeking/settings.py的INSTALLED_APPS中注册新建的「产品」...'users.apps.UsersConfig', 'product.apps.ProductConfig', ] 编写产品表结构 编写通用表结构 在全部业务相关的表中有几个通用的字段 主键...,其他表的创建就可以继承它了 产品表结构 产品包含了 货品编码 类别 品牌 品名 产品单价 样图 备注 from django.db import models from utils.models import...创建时间这个字段在新建的时候不需要暴露,只有查询的时候才用到,所以使用read_only 逻辑删除字段是内部使用的,对外删除了就不可见了,所以暴露字段的时候排除is_delete from rest_framework

    39410

    【陆勤践行】WePay机器学习反欺诈实践:Python+scikit-learn+随机森林

    我们只需要安装scikit-learn,复制导出模型文件和必要的数据处理管道代码到网络服务实例用于启动。 整个模型的开发和部署周期完全用Python独立编写。...随机森林是Leo Breiman 和 Adele Cutler开发的一种基于树形结构的集成方法,由Breiman于2001年在机器学习期刊的评议文章中首次提出[1]。...另一个基于树的方法,梯度提升决策树(GBT),可以达到类似的性能,但需要更多的参数调优。 随机森林输出特征的重要性体现在作为模型训练的副产品,这对于特征选择是非常有用的[2]。...我们还发现模型性能迅速恶化。这真的不是一个惊喜——骗子不断改变他们的方法来避免检测,所以即使是最好的模型,如果不改变也终将过时。但是我们非常惊讶这发生的速度有多快。...和我们最初的假设不同,利用最新数据在线学习并不会总能得到最好的结果。 随机森林是一个生产高性能模型的优异的机器学习算法,然而,它通常被用来作为一个黑盒方法。

    65290

    WePay机器学习反欺诈实践:Python+scikit-learn+随机森林

    我们只需要安装scikit-learn,复制导出模型文件和必要的数据处理管道代码到网络服务实例用于启动。 整个模型的开发和部署周期完全用Python独立编写。...随机森林是Leo Breiman 和 Adele Cutler开发的一种基于树形结构的集成方法,由Breiman于2001年在机器学习期刊的评议文章中首次提出[1]。...另一个基于树的方法,梯度提升决策树(GBT),可以达到类似的性能,但需要更多的参数调优。 随机森林输出特征的重要性体现在作为模型训练的副产品,这对于特征选择是非常有用的[2]。...我们还发现模型性能迅速恶化。这真的不是一个惊喜——骗子不断改变他们的方法来避免检测,所以即使是最好的模型,如果不改变也终将过时。但是我们非常惊讶这发生的速度有多快。...和我们最初的假设不同,利用最新数据在线学习并不会总能得到最好的结果。 随机森林是一个生产高性能模型的优异的机器学习算法,然而,它通常被用来作为一个黑盒方法。

    73340

    为什么 Django 能持续统治 Python 开发世界

    Django是Python Web开发新人的最佳选择,因为官方文档和教程是几个(同类)软件开发框架中最好的。 技术市场充斥着一系列网络框架,但Django在最受欢迎的服务器端Web框架里处于顶峰位置。...设计Django背后的座右铭很简单:避免重复。 Django是用Python编写的,因此其减少了太多中间层代码并突出提高了效率。Django可以支持云平台,使其成为Web开发中更受欢迎的选择。...代码设计 与大多数 Web 框架相反,Django 通过使用称为 app 的东西,更容易地将新功能添加到产品中。 因此,开发者可以感受到 Django 鼓励大家编写模块化的代码。...通过使用 Django 的迁移方法,你可以在短时间内改变一个数据库模式。同样也容易就能跟踪你的数据库模式和相关的改变。...Django的人气不断飙升,可能仍然是Python开发人员最受欢迎的选择。 您之前的项目是否用过Django? 你真的认为Django是Python开发人员最好的框架吗?

    1.1K30

    特征工程中的缩放和编码的方法总结

    特征工程又是数据预处理的一个重要组成, 最常见的特征工程有以下一些方法: 编码 缩放 转换 离散化 分离 等等 在本文中主要介绍特征缩放和特征编码的主要方法。...特征缩放 特征缩放是一种在固定范围内对数据中存在的独立特征进行标准化的技术。...ORDINAL CATEGORICAL是序数类别,这里的类别还包含了顺序的信息,比如我们考试的分数 ,优、良、中、差,优是最好的,差是最不好的。...哑变量陷阱 哑变量陷阱是指一般在引入虚拟变量时要求如果有m个定性变量,在模型中引入m-1个虚拟变量。否则如果引入m个虚拟变量,就会导致模型解释变量间出现完全共线性的情况。...如下表所示 在序数类别中,我们可以应用这项技术,因为我们最后输出的结果包含了顺序的信息。 平均数编码(MEAN ENCODING) 在这种方法将根据输出将类别转换为其平均值。

    1.1K10

    精炼鉴黄师背后的故事

    在多个类别的样本集合中,如何去权衡每个类别的样本数量、在单类别样本中,如何保证每个样本个体的特征分布合理,这才是样本关键所在。...我们要做的就是,要让样本在多个类别的分布中尽量均衡,并且在单个类别的中的样本分布也要最大化的均匀覆盖。 在得到第一批小具规模的数据后,使用了雅可比矩阵来寻找模型的分类边界。...四、鉴黄师产品的迭代实战 鉴黄师产品被部署到了lab.aianaconda.com网站上,同时也在公众号“相约机器人”下面的“AI实验室”菜单中,以小程序的形式对外开放。...模型会认为这是个黄色图片。 ? Minst中的1 同样的问题还有如下: ? 4.1.2 修复模型 这个工作已经跟深度学习的知识无关了。需要通过编写爬虫程序,从网上爬取大量的图片进行测试。...这样就可以看到模型在特征处理过程中所识别的敏感区域了。 ? 按照这种方法,进行编码实现之后,便可以找到模型识别错误的原因。如下图所示: ?

    3.2K20

    《Julia 数据科学应用》总结

    数据产品创建:使用前面阶段中创建的模型,开发易于使用的程序(一般是 API、APP 或仪表盘程序)。...在使用 Gadfly 创建可视化产品之前,最好将所有的变量保存在数据框中。 在所有的 Gadfly 统计图中,你可以在 plot()函数中使用如下参数为统计图做标记。...8.给你一个1000000个特征和100000000行的数据集。很多特征彼此相关。你有充足的时间来挖掘这个数据集,目标是建立一个模型,使这个模型在降维后的数据集上具有最高的准确率。你应该使用什么方法?...ANN 可以用 Julia 中的多个扩展包来实现,其中最好的是 BackpropNeuralNet。与其他分类器不同,ANN 需要对目标变量进行特殊的预处理,才能与算法兼容。...2.对于一个结构良好的数据集,其中特征的信息非常丰富,并且在统计上彼此独立,那么最好的分类系统应该是什么? 3.对于一个海量的数据混乱的数据集,最合适的分类方法是什么?

    1.7K40

    特征工程(四): 类别特征

    一个类别特征,见名思义,就是用来表达一种类别或标签。比如,一个类别特征能够表达世界上的主要城市,一年四季,或者说一个公司的产品(石油、路程、技术)。在真实世界的数据集中,类别值的数量总是无限的。...但是,由此产生的价值观可以互相授权,这在类别中不应该被允许。 One-hot 编码 将类别特征进行表示一个最好的办法就是使用一组比特位来表达。每一位代表一个可能的类别。...在微软搜索广告研究中,Graepel等人 [2010]报告在贝叶斯概率回归模型中使用这种二值特征,可以使用简单更新在线进行培训。 与此同时,其他组织则争论压缩方法。...特征哈希可以用于涉及特征内积的模型矢量和系数,例如线性模型和核心方法。 它一直证明在垃圾邮件过滤任务中取得成功[Weinberger等,2009]。...在这种方法中,所有类别,罕见或频繁类似通过多个散列函数进行映射,输出范围为m,远小于类别的数量,k。 当检索一个统计量时,计算所有的哈希值该类别,并返回最小的统计量。

    3.4K20

    初学者使用Pandas的特征工程

    问题是:在给定某些变量的情况下,要预测在不同城市的不同商店中存在的产品的销售情况。问题中包含的数据大多与商店和产品有关。...独热编码方法是将类别自变量转换为多个二进制列,其中1表示属于该类别的观察结果。 独热编码被明确地用于没有自然顺序的类别变量。示例:Item_Type。...使用qcut函数,我们的目的是使每个bin中的观察数保持相等,并且我们没有指定要进行拆分的位置,最好仅指定所需的bin数。 在case cut函数中,我们显式提供bin边缘。...在我们的大卖场销售数据中,我们有一个Item_Identifier列,它是每个产品的唯一产品ID。此变量的前两个字母具有三种不同的类型,即DR,FD和NC,分别代表饮料,食品和非消耗品。...这就是我们如何创建多个列的方式。在执行这种类型的特征工程时要小心,因为在使用目标变量创建新特征时,模型可能会出现偏差。

    4.9K31

    【Python环境】机器学习反欺诈实践:Python+scikit-learn+随机森林

    我们只需要安装scikit-learn,复制导出模型文件和必要的数据处理管道代码到网络服务实例用于启动。 整个模型的开发和部署周期完全用Python独立编写。...随机森林是Leo Breiman 和 Adele Cutler开发的一种基于树形结构的集成方法,由Breiman于2001年在机器学习期刊的评议文章中首次提出[1]。...另一个基于树的方法,梯度提升决策树(GBT),可以达到类似的性能,但需要更多的参数调优。 随机森林输出特征的重要性体现在作为模型训练的副产品,这对于特征选择是非常有用的[2]。...我们还发现模型性能迅速恶化。这真的不是一个惊喜——骗子不断改变他们的方法来避免检测,所以即使是最好的模型,如果不改变也终将过时。但是我们非常惊讶这发生的速度有多快。...和我们最初的假设不同,利用最新数据在线学习并不会总能得到最好的结果。 随机森林是一个生产高性能模型的优异的机器学习算法,然而,它通常被用来作为一个黑盒方法。

    1.4K91
    领券