首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

面试题64(有1千万条有重复的短信,以文本文件的形式保存,一行一条,也有重复。请用5 分钟时间找出重复出现最多的前10 条短信)

1·有1千万条有重复的短信,以文本文件的形式保存,一行一条,也有重复。请用5 分钟时间找出重复出现最多的前10 条短信。? 正确解析如下... 解析: 对于本题来说,某些面试者想用数据库的办法实现,首先将文本导入数据库,再利用select 语句的方法得出前10 个短信。但实际上用数据库是绝对满足不了5分钟解决这个条件的。这是因为1千万条短信即使1秒钟导入1万条(这已经算是很快的数据导入了),5分钟才3 百万条,即便真的能在5分钟内录完1千万条,也必须先建索引,否则SQL语句在5 分钟内肯定得不出结果。但对1

09

加密流量怎么做安全检测 | FreeBuf甲方群话题讨论

数据流量是数据资产的重要组成部分,也是数字化业务的核心,但在网络攻击事件频繁、攻击手段层出不穷的现状之下,流量加密已经愈加常态化,安全团队面临的考验也随之而来,如何从海量加密流量中检测出恶意流量成为一项不小的挑战。本期话题,我们就围绕如何在加密流量中进行安全威胁检测,就相关问题展开讨论。 目前加密流量越来越多,对于加密流量中的恶意流量检测,大家的应用和部署目前到了什么程度?检测效果如何? A1: 目前对这一块大多数安全设备都采用了基于特征的检测方法,即通过对恶意流量的特征进行检测,如基于恶意IP地址、

02

王建宙:运营商已不是整个价值链的中心!

点击标题下「大数据文摘」可快捷关注 王建宙:前中国移动董事长,现任中国中国上市公司协会会长 《哈佛商业评论》中文版以“动荡年代的基业长青”为主题,在北京举办《哈佛商业评论》中国年会·2014。中国中国上市公司协会会长王建宙在发言时表示,今天最大的变化是价值链变了,运营商不是整个价值链的中心了。 以下是文字实录: 王建宙:物联网时代的竞争再造,这个问题是非常有意思的。刚才波特教授又讲了他新的思考,我听了以后非常受启发,我们这个时代就是物联网、移动互联网、互联网的时代。我想讲三点,围绕在我们这个时代竞争力的问题

010

【Python机器学习】系列之从线性回归到逻辑回归篇(深度详细附源码)

第1章 机器学习基础 将机器学习定义成一种通过学习经验改善工作效果的程序研究与设计过程。其他章节都以这个定义为基础,后面每一章里介绍的机器学习模型都是按照这个思路解决任务,评估效果。 第2章 线性回归 介绍线性回归模型,一种解释变量和模型参数与连续的响应变量相关的模型。本章介绍成本函数的定义,通过最小二乘法求解模型参数获得最优模型。 第3章 特征提取与处理 很多机器学习问题需要研究的对象可能是分类变量、文字甚至图像。本章介绍提取这些变量特征的方法。这些技术是数据处理的前提——序列化,更是机器学习的基

010

文本聚类平移算法的几点问题

大概一个月前 10b lobster 也和我聊起过卢亮介绍过的平移算法,详细的介绍可以看这里:卢亮的blog。记得当时第二天就看到了carrot2的发布,carrot2 上使用了多种聚类的算法。 有些人对平移算法嗤之以鼻,比如这位。在我看来,一个算法有没有效果,要看这个算法的前提和假设,大炮打小鸟怎么瞄也不带劲儿。在文本处理领域中,比如,中文分词,特别是文本聚类的算法上从来没有一个算法可以解决所有问题,很多解决方案都是采用多个算法取长补短来达到综合效果的。 昨天写关于标签和书签的blog时想到,在改善新闻阅读器的文章分类也许平移算法用的上。周末便用了半天做了一个单向移动的平移算法。 平移算法,要考虑这个算法适用的范围,这个是前提。我实现的平移算法和卢亮的目的不同,类似于我的:未登录词识别 在算法的具体设计上,还需要考虑以下几个问题: 1、窗口大小,窗口借用了tcp发包的窗口的概念,就是确认有效匹配的长度; 2、平移的方向。我下面例子只实现了单向移动; 3、效率问题,平移算法涉及了大量的比较,找到一个最短的比较边界还挺重要; 下面是一份平移算法的原始结果,找出所有it公司的人名,感觉还可以。进一步处理后,就可以投入实际应用了:

06
领券