首页
学习
活动
专区
圈层
工具
发布

如何从 100 亿 URL 中找出相同的 URL?

来源 | https://doocs.github.io/advanced-java/ 题目描述 给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。...请找出 a、b 两个文件共同的 URL。 解答思路 每个 URL 占 64B,那么 50 亿个 URL占用的空间大小约为 320GB。...思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB...这样处理过后,所有可能相同的 URL 都在对应的小文件中,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。...然后遍历 bi 中每个 URL,看在 HashSet 集合中是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件中。

5.4K30

面试:如何从 100 亿 URL 中找出相同的 URL?

---- 来源:8rr.co/FR7V 题目描述 给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。请找出 a、b 两个文件共同的 URL。...解答思路 每个 URL 占 64B,那么 50 亿个 URL占用的空间大小约为 320GB。...思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB...这样处理过后,所有可能相同的 URL 都在对应的小文件中,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。...然后遍历 bi 中每个 URL,看在 HashSet 集合中是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件中。

6.6K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    面试:如何从 100 亿 URL 中找出相同的 URL?

    来源:8rr.co/FR7V 题目描述 给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。请找出 a、b 两个文件共同的 URL。...解答思路 每个 URL 占 64B,那么 50 亿个 URL占用的空间大小约为 320GB。...思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB...这样处理过后,所有可能相同的 URL 都在对应的小文件中,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。...然后遍历 bi 中每个 URL,看在 HashSet 集合中是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件中。

    3.9K20

    面试经历:如何从 100 亿 URL 中找出相同的 URL?

    题目描述 给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。请找出 a、b 两个文件共同的 URL。...解答思路 每个 URL 占 64B,那么 50 亿个 URL占用的空间大小约为 320GB。...思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB...这样处理过后,所有可能相同的 URL 都在对应的小文件中,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。...然后遍历 bi 中每个 URL,看在 HashSet 集合中是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件中。

    3.4K00

    一种精确从文本中提取URL的思路及实现

    在今年三四月份,我接受了一个需求:从文本中提取URL。这样的需求,可能算是非常小众的需求了。大概只有QQ、飞信、阿里旺旺等之类的即时通讯软件存在这样的需求。...这类软件往往也是恶意URL传播的媒介,如果不能准确识别出URL,相应的URL安全检测也无从谈起。...最常见“最”标准的URL         例子:http://www.g.cn/         衍生出浏览器可以接受的URL(在地址栏输入的URL首先会被浏览器截获,浏览器可更具其对URL的理解进行相关容错...URL的RFC文档对提取URL的帮助 提供了所有的协议头,帮助准确找到URL起始位置 提供了http、ftp等协议名 定义了各种URL的范式,为准确得提取URL有很大的帮助 如ali-inc.com...(这是很久前一个做实验的版本,不能保证其准确性)利用这个正则表达式中我们可以发现很多域名,这些域名都是我从某款安全辅助软件的二进制文件中扒下来了 。

    5.8K20

    如何从文本中构建用户画像

    推荐阅读时间:8min~10min 文章内容:如何从文本中构建用户画像 一文告诉你什么是用户画像 介绍了到底什么是用户画像,了解了用户画像的本质是为了让机器去看之后,这里谈一谈如何从文本中构建用户画像。...文本数据是互联网产品中最常见的信息表达形式,具有数量多、处理快、存储小等特点。来简单看下如何从文本数据中构建用户画像。...标签选择 前面提到的都是将文本进行结构化,生成标签、主题、词向量等等,如何通过结构化后的文本构建用户画像呢?或者说如何将文本中的结构化信息传递给用户呢?...如何使用特征选择方法来挑选用户实际感兴趣的特性呢: 将物品的结构化内容看成一个特征列表 将用户对物品的消费情况看成目标类别 使用特征选择算法筛选出用户关心的特征 选择特征时,从以下两个角度考虑问题: 特征是否发散...总结 用户画像在推荐系统中的作用是非常重要的,如何从文本中构建用户画像信息呢?简单来说就是两部分:结构化文本信息和筛选部分特征信息。

    6.3K61

    如何将网站动态URL静态化,有啥优势?

    因此动态页面对应的 URL 原始状态也是动态的,包含问号、等号及参数,如下: https://www.tencent.com/viewthread.php?...id=$1 URL重写代码基于正则表达式,动态URL结构不同,服务器设置可能也不同,代码也就不同。...URL静态化优势: 1、用户体验。方便用户理解页面大致内容。 2、方便易记。与动态URL相比,静态URL更容易记忆。 3、美观度。...动态URL参数过多,网址过长,不利于在邮件、社交网上进行分享,在美观度上低于静态化URL。...网站URL静态化之后,美观度和体验度大大增加了,在进行外部优化推广时,静态化URL更容易让人从心理上进行接受和识别;从感观的角度看,静态化URL更容易获得点击率。

    96920

    如何用Python从海量文本抽取主题?

    详细的流程步骤请参考《 如何用Python做词云 》一文。 从微信公众平台爬来的datascience.csv文件,请从 这里 下载。你可以用Excel打开,看看下载是否完整和正确。 ?...而中文本身并不使用空格在单词间划分。此处我们采用“结巴分词”工具。这一工具的具体介绍和其他用途请参见《如何用Python做中文分词?》一文。 我们首先调用jieba分词包。...import jieba 我们此次需要处理的,不是单一文本数据,而是1000多条文本数据,因此我们需要把这项工作并行化。这就需要首先编写一个函数,处理单一文本的分词。...所以这里做了个限定,只从文本中提取1000个最重要的特征关键词,然后停止。...pyLDAvis.sklearn pyLDAvis.enable_notebook() pyLDAvis.sklearn.prepare(lda, tf, tf_vectorizer) 对,你会看到如下的一张图,而且还是可交互的动态图哦

    2.6K20

    如何用Python从海量文本抽取主题?

    详细的流程步骤请参考《 如何用Python做词云 》一文。...文章链接: http://www.jianshu.com/p/e4b24a734ccc 从微信公众平台爬来的datascience.csv文件,也可以下载。...而中文本身并不使用空格在单词间划分。此处我们采用“结巴分词”工具。这一工具的具体介绍和其他用途请参见《如何用Python做中文分词?》一文。...所以这里做了个限定,只从文本中提取1000个最重要的特征关键词,然后停止。 ? 下面我们开始关键词提取和向量转换过程: ? 到这里,似乎什么都没有发生。因为我们没有要求程序做任何输出。...对,你会看到如下的一张图,而且还是可交互的动态图哦。 ? 图的左侧,用圆圈代表不同的主题,圆圈的大小代表了每个主题分别包含文章的数量。 图的右侧,列出了最重要(频率最高)的30个关键词列表。

    2.2K70

    Flutter异常捕获 | 从bugsnag源码学习如何追溯异常产生路径

    SDK自己啥都不干 ,抛开Bugsnag这种处理异常的方式不论,源码里却也有一些之我见的亮度值得借鉴和学习,比如本文主要介绍Bugsnag如何追溯异常路径的设计思想和实现,对异常捕获的认识有不少帮助。...:Zone 中Zone异常捕获小节。...如下:异常产生流程,state被成功加载后用户先进入了主页,然后从主页进入了native-crashes页之后异常就产生了。 对开发者和测试人员来说很容易复现通过如上路径来复现问题。...://example.com/invalid')); ----[bugsnag_breadcrumbs_http.dart]----> Future post(Uri url...encoding}) => _withClient((client) => client.post(url, headers: headers, body: body, encoding

    1.6K50

    Flutter异常捕获 | 从bugsnag源码学习如何追溯异常产生路径

    SDK自己啥都不干 ,抛开Bugsnag这种处理异常的方式不论,源码里却也有一些之我见的亮度值得借鉴和学习,比如本文主要介绍Bugsnag如何追溯异常路径的设计思想和实现,对异常捕获的认识有不少帮助。...中Zone异常捕获小节。...如下:异常产生流程,state被成功加载后用户先进入了主页,然后从主页进入了native-crashes页之后异常就产生了。 对开发者和测试人员来说很容易复现通过如上路径来复现问题。?...https://example.com/invalid'));----[bugsnag_breadcrumbs_http.dart]---->Future post(Uri url...encoding}) => _withClient((client) => client.post(url, headers: headers, body: body, encoding

    1.8K50

    2025年视频生成技术全景:从图像与文本到动态视觉内容

    要点 描述 驱动 痛点 传统视频制作需要专业技能和大量时间,难以快速将创意转化为动态视觉内容 自我提升需求 方案 2025年的视频生成技术通过扩散模型、大型语言模型等方法,实现了从图像或文本到高质量视频的自动生成...视频生成技术是指通过人工智能算法自动或半自动地创建动态视觉内容的技术。...这两种技术结合了计算机视觉、自然语言处理和视频理解的最新进展,能够理解输入中的内容、动作和意图,并将其转化为连贯的动态视觉序列。...处理输入图像 if isinstance(image, str): if image.startswith("http"): # 从URL...# ) # print("图像到视频生成完成") # generator.save_video(frames_from_image, "dog_running.mp4", fps=8) # # # 从文本生成视频

    1.1K10
    领券