首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

用python一步步解剖dex文件(三)

全解析框架和信息篡改

用python一步步解剖dex文件(一)

用python一步步解剖dex文件(二)

前两篇主要在已有的项目dexparser基础上,做的研究和补充;但是想对dex做修改的话,这个就不够了。

所以我自己做了一个解析框架,这个框架将dex分解为层级对象,并且可以将层级对象重新还原回dex格式中。

框架代码地址: https://github.com/callmejacob/dexfactory

android dex文件格式:

https://source.android.com/devices/tech/dalvik/dex-format#encoding

android源码中对dex格式的解析和校验:

http://androidxref.com/8.0.0_r4/xref/dalvik/libdex/

框架结构

dex文件可以看成是一个section的列表,每个section里包含一个item列表,而每个item中又可能嵌套某个数据结构data。

其中,section列表的信息(类型,子项数目,文件偏移量)最终会记录在叫MAP_LIST的section段中。

基于此,首先抽象出一个字节数组对象类(BytesObject),它包含一个字节数组和解码编码的方法,解码用于从该字节数组中获取一个对象信息,编码用于将对象信息重新压缩回字节数组中。

上面提到的data使用BaseData抽象,item使用BaseItem抽象,section使用BaseSection抽象。

继承关系如下:

基类图

每个section都是有类型的:(按官方文档,这里缺失一些类型,需要继续补充)

类型定义

基于抽象基类和类型,我们定义基于BaseItem的各个类型的子类,并做item类的映射表:

item类映射表

并且定义基于BaseSection的各个类型的子类,并做section类的映射表:

section类映射表

为了能够跨越section获取信息,定义一个上下文的类Context,它包含了section的映射表:

Context类

最后定义一个Dex文件的信息类DexInfo,它负责打开dex文件,解码,编码,保存,打印等等。

DexInfo

最主要的流程还是解码和编码的过程:

解码过程

编码过程

这里面的难点主要是文件偏移量和排序问题。

dex的数据结构中,很多是直接用文件偏移量表示的,可是该文件偏移量对应的项信息发生了更改(特别是文件偏移量需要调整的时候),就会出现混乱;还有android的libdex在解析dex时会做很多顺序的校验,比如string_ids列表的数字必须从低到高等。

为此,我做了两重映射: off id item

其中off是指文件偏移量,id是指对应的子项在section中的索引编号,而item就是对应的子项。

在解码过程中,从Dex里解析到的是off,然后使用[ off ---> id ]转换,再做[ id ---> item ]转换,这样子项item里的信息,就包含了其它section中相应的id和item信息。

在编码过程中,因为section里的子项列表可能做了调整,所以先做[ item ---> id ]转换(同时按照新的id进行排序),再做[ id ---> off ]转换,这样最后的偏移量就是准确的偏移量了。

测试程序和字符串修改

Demo

其中修改函数如下:

修改字符串

运行结果:

result

使用dexdump可以立即检测下新的dex文件是否有问题:

dexdump classes_new.dex

如果发现错误信息,可以到android源码中的dalvik/libdex中,找寻相应的提示来定位问题。

最后,将新的dex文件替换掉原有apk中的dex文件,重新用zip压缩为apk,并重新签名。

这里提供一个mac上的签名工具:

需要完善的地方

1. 类型不完全

2. 排序功能不完全

3. 字节码反编译框架

4. 数据使用需要优化

【待续】

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180215G01ONJ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券