MapReduce中的Join算法
在关系型数据库中Join是非常常见的操作,各种优化手段已经到了极致。在海量数据的环境下,不可避免的也会碰到这种类型的需求,例如在数据分析时需要从不同的数据源中获取数据。不同于传统的单机模式,在分布式存储下采用MapReduce编程模型,也有相应的处理措施和优化方法。 我们先简要地描述待解决的问题。假设有两个数据集:气象站数据库和天气记录数据库 气象站的示例数据,如下Station...
View Article海量数据处理常见面试题
1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样每个小文件的大约为300M。 s...
View ArticleVR技术究竟能让我们干什么?来一个小盘点
对于现在猛然出现的 VR 热潮,很多人可能会不以为然,认为自己不玩游戏,那这东西对自己来说就没有用了。其实 VR 技术的适用范围非常广泛,今天就让我们来盘点一下吧:娱乐从好莱坞电影,到演唱会直播和剧院,VR 将成为一个能够让你身临其境的体验方式。现在许多厂商都已经推出全新的 360°摄像机,可以一次性拍下周围的景象,并制成 VR 视频内容。不仅如此,上传和直播 VR...
View ArticleAJAX POST请求中参数以form data和request payload形式在servlet中的获取方式
HTTP请求中,如果是get请求,那么表单参数以name=value&name1=value1的形式附到url的后面,如果是post请求,那么表单参数是在请求体中,也是以name=value&name1=value1的形式在请求体中。通过chrome的开发者工具可以看到如下(这里是可读的形式,不是真正的HTTP请求协议的请求格式):get请求: [plain] view plain...
View ArticleLevenshtein 自动机(拼音纠错)
原文: http://blog.jobbole.com/80659/ 在上一期的超酷算法中,我们聊到了BK树,这是一种非常聪明的索引结构,能够在搜索过程中进行模糊匹配,它基于编辑距离 (Levenshtein distance),或者任何其它服从三角不等式的度量标准。今天,我将继续介绍另一种方法,它能够在常规索引中进行模糊匹配搜索,我们将它称之为...
View ArticleBK-Tree算法(模糊匹配)
转自: http://www.matrix67.com/blog/archives/333除了字符串匹配、查找回文串、查找重复子串等经典问题以外,日常生活中我们还会遇到其它一些怪异的字符串问题。比如,有时我们需要知道给定的两个字 符串“有多像”,换句话说两个字符串的相似度是多少。1965年,俄国科学家VladimirLevenshtein给字符串相似度做出了一个明确的定义...
View Article安卓动态调试七种武器之长生剑 - Smali Instrumentation
引用本文来自: 阿里聚安全博客作者:蒸米@阿里聚安全0x00 序随着移动安全越来越火,各种调试工具也都层出不穷,但因为环境和需求的不同,并没有工具是万能的。另外工具是死的,人是活的,如果能搞懂工具的原理再结合上自身的经验,你也可以创造出属于自己的调试武器。因此,笔者将会在这一系列文章中(共7篇)分享一些自己经常用或原创的调试工具以及手段,希望能对国内移动安全的研究起到一些催化剂的作用。 0x01...
View Article常见的八种导致 APP 内存泄漏的问题
本文来自: http://blog.nimbledroid.com像Java这样具有垃圾回收功能的语言的好处之一,就是程序员无需手动管理内存分配。这减少了段错误(segmentation fault)导致的闪退,也减少了内存泄漏导致的堆空间膨胀,让编写的代码更加安全。然而,Java 中依然有可能发生内存泄漏。所以你的安卓 APP 依然有可能浪费了大量的内存,甚至由于内存耗尽(OOM)导致闪退。...
View Articlejava在CPU中的一些个破事
其实写Java的人貌似和CPU没啥关系,最多最多和我们在前面提及到的如何将CPU跑满、如何设置线程数有点关系,但是那个算法只是一个参考,很多场景不同需要采取实际的手段来解决才可以;而且将CPU跑满后我们还会考虑如何让CPU不是那么满,呵呵,人类,就是这么XX,呵呵,好了,本文要说的是其他的一些东西,也许你在java的写代码时几乎不用关注CPU,因为满足业务才是第一重要的事情,如果你要做到框架级别,为...
View Article被 Google Play 下架刷爆朋友圈:聊聊 SDK 采集数据的秘密
作者: 黑板报值日生编者注:本文作者为「友盟+」高级产品研发专家马巍源,极客公园有删改并获得转载授权。这两天,朋友圈里都在转载有 App 被 Google Play 下架一事,也许因为本人朋友圈内从事移动互联网数据行业以及各企业开发者较多,此事被炒得沸沸扬扬。其实可以看出大家一直在讨论的仍是移动互联网圈的一个老话题:用户数据隐私与 SDK 收集用户数据的安全性。其实用户数据隐私以及 SDK...
View Article15 个 Android 通用流行框架大全
1. 缓存DiskLruCache Java实现基于LRU的磁盘缓存2.图片加载Android Universal Image Loader 一个强大的加载,缓存,展示图片的库Picasso 一个强大的图片下载与缓存的库Fresco 一个用于管理图像和他们使用的内存的库Glide 一个图片加载和缓存的库3....
View Article使用纯java ssh方式连接linux服务器,并用此方式部署war到linux的tomcat下
纯java代码使用ssh方式登录linux服务。 实际应用中,可以使用这种方式上传部署web工程war包 并且部署启动tomcat 一个自动化完成所有工作 起到节省时间作用。 1.去 官网下载最新的jar包 jsch-0.1.51.jar 下面是我的java code 例子 /** * java ssh登录linux以后的一些操作方式 * @author liuxy * */ public...
View ArticleLinux中如何使用gThumb批量调整图片大小
如果你的工作涉及到图片编辑和处理,就一定会有同时对多张图片进行批量大小调整的经 历。虽然大多数图片编辑应用都能够非常容易地批量调整多张图片, 但对于新手用户来说,总是不太容易轻松找到并使用相关功能,因此本文将向大家介绍如何在 Linux 桌面系统中使用 gThumb 软件来批量调整图片大小。注意:以下内容都基于 Ubuntu 16.04 操作系统中的 gThumb 3.4.3...
View Article【转】亿级Web系统的容错性建设实践
转载:http://mp.weixin.qq.com/s?__biz=MzAwNjQwNzU2NQ==&mid=402841629&idx=1&sn=f598fec9b370b8a6f2062233b31122e0&scene=4#wechat_redirect 亿级Web系统的容错性建设实践2016-04-04徐汉彬架构师 架构师 架构师微信号...
View Articlejmeter分布式环境搭建
1 准备机器 N+1台机,简称客户端N作为从机,1台作为控制器注:从机作为虚拟用户发起机器 2 配置 1 关闭所有从机防火墙 ---从机2 所有的客户端应该都是在同一个子网中。---客户端3 确保jMeter可以访问这个服务器 ---Ping --客户端能访问服务器4 确保各个客户端的jMeter的版本都是一致的,不同版本的Jmeter可能不会协同工作。...
View Article自定义标签 + shiro 实现权限细粒度控制
这里我们是使用shiro来实现登录验证,授权等操作,然后利用自定义jsp标签来实现权限菜单的细力度控制。所谓的细粒度控制,就是根据用户登录权限的不同,显示不同的菜单,例如,用户如果有添加用户,修改用户的权限,我们就显示这个俩个菜单,然后我们并不显示删除用户的菜单。如何自定义jsp标签1.定义一个权限标签,命名为mytag.tld<?xml version="1.0"...
View Article手机数据传输安全分析
如今手机已经成了我们离不开的伙伴和知己,它了解我们的日常生活。然而每一天在路上的时候,它都会收集我们的私密信息。平时我们会用它拍照,在社交网络中分享我们的心情;我们也用它发送邮件、短信以及拨打电话。所以,这些信息则让我们的智能手机成为黑客眼热的宝库。普通用户的安全概念最重要的是,我们中大多数人相信手机中的数据是绝对安全的。毕竟手机制造商曾向我们保证过,而且他们也给我们提供了安全补丁和更新升级包。我们...
View Article百度计划五年内量产无人驾驶车
百度高级副总裁王劲宣布,百度计划在五年内实现无人驾驶汽车量产。百度已开始在北京和安徽芜湖的公路及上海一处封闭测试场地测试其无人驾驶车型。王劲表示,希望能将百度的无人驾驶汽车测试扩大到中国的10座城市,以测试不同天气、路况和交通状况。王劲说,制造无人驾驶汽车的竞赛场足够大,容得下百度和Alphabet。他认为没有哪家公司能在这一领域占据主导地位。他认为现在无人驾驶汽车还不能处理警察向其挥手示意的状况。...
View Article网站攻防之CSRF和XSS跨站脚本攻击
进入正题之前,先扯一番:黑客本义并非某些人以为的利用网络干坏事的人,刚开始或者说现在的很多,黑客是以技术大牛的形式存在的,也就是在网络领域有一门专场的牛人。有些黑客不干坏事而是干好事,比如利用网站的漏洞,去告诉网站开发运营者你的网站有漏洞,要修补啦,他们却并不会利用这漏洞干坏事,而是以发现漏洞追求技术快感为享受。说是网站攻防演练,但估计这套东西已经很老很少用了,毕竟作为课程实验的实例都是“经典”的。...
View Article