绕过Copy-On-Write机制安装全局Hook创建时间:2005-10-22 文章属性:原创 文章提交:Addylee (Addylee2004_at_163.com) Jeffrey Richter在他的<<widows核心编程>>一书中对Ring 3级的API Hook方法做了详细的介绍,但是一般的Ring 3无论是修改IAT,还是插入JMP XXX都将导致Copy-On-Write的发生,如果,要在系统范围内安装一个全局的Hook的话,就不得不枚举系统中所有进程,对所有进程中的相应模块做同样的修改,这样以来,对系统性能,是有一定的负面影响的。另一方面,如果要做系统范围内的全局Hook的话,可以直接在Ring 0级通过Hook系统调,修改目标API的指令等方法实现。但是,代码在Ring 0的地址空间中,Ring 3环境下的程序无法直接调用。 由于Windows利用了PTE中的第9位用于Copy-On-Write机制。而Ring 3的代码无法访问PTE的,因此要绕过Copy-On-Write的话,该程序还是无法避免的要工作在Ring 0环境下。本文将以修改Kernel32.dll内存映象中的CreateProcessW为例,介绍绕过Copy-On-Write实现全局Hook的一种方法。我的实验环境是Windows 2000 SP4 内部版本2195。因为EProcess的未公开原因,本例在其它版本的Windows不能保证正确运行。 一般情况下,每个进程都加载了Kernel32.dll这个模块,并且绝大多数情况下Kernel32在每个进程中所加载的基址都一样,在物理内存中,也只有一份Kernel32的映象,所以可以让用户程序LoadLibrary后,把Kernel32的基地址发到Ring 0的驱动程序中,让驱动程序来修改相应PTE,禁了Copy-On-Write后再修改相应的API指令就行了,但是,为了防止某种可能,比如:之前有一个进程也对它进行了写操作,让系统中有了两份或多份Kernel32的映象,而在用户级LoadLibrary,最多只可能修改到某一个映象,所以,我从内核中枚举了所有的EPROCESS结构,再根据PEB_LDR_DATA结构中找到它的所加载的模信息,对其修改。 直接操作各个进程地址空间的数据,很不方便,可以用Windows 未公开API,KeAttachProcess, 函数来切换到指定进程的内存上下文环境。把CreateProcessW的入口处改成了JMP XXX,但是,跳到哪去呢?程序工作在 Ring 0下,CreateProcessW不可能直接那里边的一个函数中的,但是,PE文件中每个节都会存在一些“空洞”,kernel32也不例外,就把代码Copy到Kernel32的某个节区的“空洞”中去吧。如果“空洞”太小,怎么办呢?可以把我们的代码写成一个DLL,在那个“空洞”中放上一小段代码来Load这个DLL,当然,也有可能在某种极端的情况下,这点“空洞”还是不够 就:( struct _hardware_pte_x86 (sizeof=4) +0 bits0-0 valid +0 bits1-1 write +0 bits2-2 owner +0 bits3-3 writethrough +0 bits4-4 cachedisable +0 bits5-5 accessed +0 bits6-6 dirty +0 bits7-7 largepage +0 bits8-8 global +0 bits9-9 copyonwrite +0 bits10-10 prototype +0 bits11-11 reserved +0 bits12-31 pageframenumber 从上面可以看出,bits 9 被用于Copy-On-Write机制,以下这段内容摘自<<Undocumented Windows NT>> The VirtualProtect() function does not mark the page as read-write–it keeps the page as read-only. Nevertheless, to distinguish this page from normal read-only pages, it is marked for copy-on-write. Windows NT uses one of the available PTE bits for doing this. When this page is written onto, because it is a read-only page, the processor raises a page fault exception. The page fault handler makes a copy of the page and modifies the page table of the faulting process accordingly. The new copy is marked as read-write so that the process can write to it. 所以只要把Read-Only属性去掉,再对这个DLL进行写入,就可以绕过Copy-On-Write机制了。:) #include <ntddk.h> #include "proc.h" // 进程块的结构信息 #include "PE.h" // PE文件的一些结构信息 #include "Page.h" // 页表,页目录操作 #define PEBOFFSET 0x1B0 // PEB指针位于EPPROCESS中偏移0x1B0处 #define FLINKOFFSET 0xA0 // 进程的链表指针。这些信息可以通过kd得到。 // 为了突出重点,节省篇幅,硬编码了两个未公开API的地址,其实也可以通过操作PE // 的导出表来得到这些信息。 typedef NTSTATUS (NTAPI *KEATTACHPROCESS)(PPEB); typedef NTSTATUS (NTAPI *KEDETACHPROCESS)(); KEATTACHPROCESS KeAttachProcess = 0x8042bd32; KEDETACHPROCESS KeDetachProcess = 0x8042beca; NTSTATUS DriverEntry(IN PDRIVER_OBJECT pDriverObject, IN PUNICODE_STRING pRegistryPath) { UNICODE_STRING Kernel32; RtlInitUnicodeString(&Kernel32, L"C:\\WINNT\\SYSTEM32\\KERNEL32.dll"); __try { Hook(&Kernel32, "CreateProcessW", NewCreateProcessW); } __except(EXCEPTION_EXECUTE_HANDLER) { DbgPrint("Error"); } RtlFreeUnicodeString(&Kernel32); return STATUS_SUCCESS; } VOID Hook(PUNICODE_STRING pModuleName, PCHAR pFunctionName, PVOID pfnNewFunction) { PLIST_ENTRY pCurrentList = NULL, pTempList = NULL, pLoadOrderModuleList, list; PPEB pPeb = NULL; PHYSICAL_ADDRESS paOld, paCurrent; ULONG hModule, temp, pEProcess; paOld.QuadPart = 0; paCurrent.QuadPart = 0; pEProcess = (ULONG)IoGetCurrentProcess(); pCurrentList = (PLIST_ENTRY)(pEProcess + FLINKOFFSET); pTempList = pCurrentList; // 对所有进程进行枚举。 do { pEProcess = (ULONG)pTempList - FLINKOFFSET; pPeb = (PPEB)(*(PULONG)(pEProcess + PEBOFFSET)); if (pPeb != NULL) { KeAttachProcess(pEProcess); // 切换内存上下文到指定的进程 pLoadOrderModuleList = pPeb->LoaderData->InLoadOrderModuleList.Flink; list = pLoadOrderModuleList; do // 遍历进程所加载模块中,直到找到kernel32 { if(0==RtlCompareUnicodeString(&(((PLDR_MODULE)list)->FullDllName), pModuleName, TRUE))) { hModule = ((PLDR_MODULE)list)->BaseAddress; //Kernel32可能被调出,对它进行一次读操作,由于KeAttachProcess切换到了该进程的地址空间 //所以让Windows自动处理缺页,把它调入吧,以免它“漏网”:) temp = *(PULONG)hModule; paCurrent = MmGetPhysicalAddress(hModule); // 如果上次处理过的,和现在的在同一物理地址上,就不处理了,当然如果,在内存中,有两个 // 以上的映像的话,这种处理方法不是很有效(还是造成了重复的工作)不过,在我实验中, // 似乎总是只有一份Kernel32的内存映象,做个循环,只不过是为了以防万一。:) if (paOld.QuadPart != paCurrent.QuadPart) { paOld.QuadPart = paCurrent.QuadPart; Patch(hModule, pFunctionName, pfnNewFunction); } break; } list = list->Flink; } while(list != pLoadOrderModuleList); KeDetachProcess(); } pTempList = pTempList->Flink; } while(pTempList != pCurrentList); } VOID Patch(PVOID hModule, PCHAR pFunctionName, PVOID pfnNewFunction) { ULONG len, n; PVOID pfnOrig, SectionGapStart; pfnOrig = GetFunctionAddress(hModule, pFunctionName); len = GetMyFunctionLen(pfnNewFunction); SectionGapStart = GetSectionGap(hModule, len); if (SectionGapStart == NULL) return NULL; PTE_ENTRY((ULONG)SectionGapStart) |= 2; // Read-Only 位。 for (n = 0; n < len; n++) { *(PUCHAR)((PUCHAR)SectionGapStart + n) = *(PUCHAR)((PUCHAR)pfnNewFunction + n); } /* 我的机器上的CreateProcessW的代码,是这样了。 KERNEL32!CreateProcessW 001B:77E6B252 55 PUSH EBP 001B:77E6B253 8BEC MOV EBP, ESP 001B:77E6B255 FF752C PUSH DWORD PTR [EBP+2C] 第二条和第三条指令正好是5Byte的长度,所以,我选择把第二条和第三条改成跳转指令。 跳转指令码为0xE9,位移计算:目的地址 - 起始地址 - 跳转指令本身的长度。 */ for (len = 1; len <= 5; len++, n++) *(PUCHAR)((PUCHAR)SectionGapStart + n) = *(PUCHAR)((PUCHAR)pfnOrig + len); *(PUCHAR)((PUCHAR)SectionGapStart + n) = 0xE9; *(PULONG)((PUCHAR)SectionGapStart+n+1) = (ULONG)(((PUCHAR)pfnOrig + 6) - (ULONG)((PUCHAR)SectionGapStart + n) - 5); PTE_ENTRY((ULONG)SectionGapStart) &= 0xFFD; PTE_ENTRY((ULONG)pfnOrig) |= 2; n += 6; __asm CLI *(PUCHAR)((PUCHAR)pfnOrig + 1) = 0xE9; *(PULONG)((PCHAR)pfnOrig + 2) = ((ULONG)SectionGapStart - (ULONG)((PUCHAR)pfnOrig+1) - 5); __asm STI PTE_ENTRY((ULONG)pfnOrig) &= 0xFFD; } // 根据指定的模块获取代码节的“空洞”偏移地址。 PVOID GetSectionGap(PVOID hModule, USHORT GapSize) { PIMAGE_DOS_HEADER pDosHeader = hModule; PIMAGE_NT_HEADERS pNtHeader; PIMAGE_SECTION_HEADER pSectionHeader; ULONG n = 0; if (pDosHeader->e_magic != 'ZM') return NULL; pNtHeader = (PIMAGE_NT_HEADERS)((PCHAR)hModule + pDosHeader->e_lfanew); if (pNtHeader->Signature != 'EP') return NULL; pSectionHeader = (PCHAR)pNtHeader + sizeof(IMAGE_NT_HEADERS); for (n = 0; n < pNtHeader->FileHeader.NumberOfSections; n++) { pSectionHeader += n; // 找到代码节,该法不总是有效,Borland编译器好像代码节为.CODE if (IsStringEqual(pSectionHeader->Name, ".text")) { if ((PAGE_SIZE - (pSectionHeader->Misc.VirtualSize & PAGE_SIZE)) > GapSize) { return (ULONG)((PCHAR)hModule + pSectionHeader->VirtualAddress + pSectionHeader->Misc.VirtualSize); } } } return NULL; } // 从指定模块根据导出表获取导出函数地址。 PVOID GetFunctionAddress(PVOID hModule, PCHAR pFunctionName) { PIMAGE_DOS_HEADER pDosHeader = hModule; PIMAGE_NT_HEADERS pNtHeader; PIMAGE_EXPORT_DIRECTORY pExportDirectory; ULONG n; PULONG pExportFunction; PULONG pFunctionAddress; PUSHORT pAddressOridinals; if (pDosHeader->e_magic != 'ZM') return NULL; pNtHeader = (PIMAGE_NT_HEADERS)((PCHAR)hModule + pDosHeader->e_lfanew); if (pNtHeader->Signature != 'EP') return NULL; pExportDirectory = (PCHAR)hModule + pNtHeader->OptionalHeader.DataDirectory[IMAGE_DIRECTORY_ENTRY_EXPORT].VirtualAddress; pExportFunction = (PCHAR)hModule + pExportDirectory->AddressOfNames; pFunctionAddress = (PCHAR)hModule + pExportDirectory->AddressOfFunctions; pAddressOridinals = (PCHAR)hModule + pExportDirectory->AddressOfNameOrdinals; for (n = 0; n < pExportDirectory->NumberOfNames; n++) { if (IsStringEqual(((PCHAR)hModule + *(pExportFunction + n)), pFunctionName) == TRUE) return (PVOID)((PCHAR)hModule + *(pFunctionAddress + *(pAddressOridinals + n))); } } 这个函数是最晦涩的了。这段代码将被Copy到Kernel32的一个“空洞”中执行,既要处理重定位, 又要在那里,手工获取LoadLibrary和GetProcAddress的地址,而且VC中inline asm也没有masm32那么直接,更可恨的是 naked 函数中申明局部变量,好像会破坏了堆栈平衡,本来,想申明一两个register变量,加强程序的可读性,但是,又不能保证编译器,总是成功分配register变量,然后,又想,在一个__forceinline函数中,写所有的代码,在这个__forceinline函数,使用局部变量,加强可读性,而这个naked函数只要调用__forceinline函数就好了,但是,似乎也没办法让编译器总是inline成功。就只有全部自己写了 :( 这个函数从PEB中取kernel32的基地址,再根据导出表获取LoadLibrary和GetProcAddress的地址,然后加载User32.dll,关获取MessageBoxW的地址,再调用它。最后,再Free User32.dll。 __declspec(naked) NewCreateProcessW() { __asm { PUSHAD MOV EAX, DWORD PTR FS:[0x30] MOV EAX, DWORD PTR [EAX+0xC] MOV ESI, DWORD PTR [EAX+0x1C] LODSD MOV EBX, DWORD PTR [EAX+0x8] // EBX: KERNEL32.DLL的基址 MOV EAX, EBX ADD EAX, 0x3C MOV EAX, [EAX] ADD EAX, EBX // EAX 定位到 IMAGE_DIRECTORY_ENTRY_EXPORT ADD EAX, ((TYPE IMAGE_NT_HEADERS) - ((TYPE IMAGE_DATA_DIRECTORY)*16)) MOV EAX, [EAX] ADD EAX, EBX // EAX -> 导出表 MOV ESI, [EAX + 0x20] ADD ESI, EBX // ESI -> 导出函数名字的 RVA 数组 PUSH ESI // int 3 MOV ECX, 0xB CALL a0 a0: POP EBP LEA EDI, a0 SUB EBP, EDI LEA EDI, pFreeLibrary ADD EDI, EBP CALL GetProcAddr // GetProcAddr 在 EDX 中返回 FreeLibrary 的地址 POP ESI PUSH EDX // EDX = FreeLibrary 的地址, 保存起来 PUSH ESI MOV ECX, 0xE CALL a1 a1: POP EBP LEA EDI, a1 SUB EBP, EDI LEA EDI, pGetProcAddress ADD EDI, EBP CALL GetProcAddr // GetProcAddr 在 EDX 中返回 GetProcAddress 的地址 POP ESI PUSH EDX // 保存 EDX = GetProcAddress 的地址, 保存起来 MOV ECX, 0xC CALL a2 a2: POP EBP LEA EDI, a2 SUB EBP, EDI LEA EDI, pLoadLibraryA ADD EDI, EBP CALL GetProcAddr // GetProcAddr 在 EDX 中返回 LoadLibraryA 的地址 CALL a3 a3: POP EBP LEA EDI, a3 SUB EBP, EDI LEA EDI, pUser32dll ADD EBP, EDI PUSH EBP CALL EDX // 调用 LoadLibraryA POP EDX // EDX = GetProcAddress 的地址 CALL a4 a4: POP EBP LEA EDI, a4 SUB EBP, EDI LEA EDI, pMessageBoxW ADD EBP, EDI PUSH EAX PUSH EBP PUSH EAX // EAX = user32.dll的模块句柄 CALL EDX // 调用 GetProcAddress PUSH 0 PUSH [esp + 0x38] PUSH [esp + 0x3C] PUSH 0 CALL EAX // 调用MessageBoxW POP EAX POP EDX // FreeLibrary 的地址 PUSH EAX CALL EDX JMP over GetProcAddr: MOV EDX, [EAX+0x18] //以名字导出的函数个数 FindNext: PUSH EDI PUSH ECX PUSH EDX PUSH ESI MOV ESI, [ESI] ADD ESI, EBX CLD REPE CMPSB POP ESI POP EDX POP ECX POP EDI JZ Found ADD ESI, 4 DEC EDX JNZ FindNext Found: MOV ECX, [EAX+0x18] SUB ECX, EDX SAL ECX, 1 MOV EDX, [EAX+0x24] // 导出函数序号表 的 RVA ADD EDX, EBX ADD EDX, ECX XOR ECX, ECX MOV CX, WORD PTR [EDX] // ECX <= 编号 SAL ECX, 1 SAL ECX, 1 MOV EDX, [EAX+0x1C] ADD EDX, EBX ADD EDX, ECX MOV EDX, [EDX] ADD EDX, EBX RET pLoadLibraryA: _emit 'L' _emit 'o' _emit 'a' _emit 'd' _emit 'L' _emit 'i' _emit 'b' _emit 'r' _emit 'a' _emit 'r' _emit 'y' _emit 'A' _emit 0 pGetProcAddress: _emit 'G' _emit 'e' _emit 't' _emit 'P' _emit 'r' _emit 'o' _emit 'c' _emit 'A' _emit 'd' _emit 'd' _emit 'r' _emit 'e' _emit 's' _emit 's' _emit 0 pMessageBoxW: _emit 'M' _emit 'e' _emit 's' _emit 's' _emit 'a' _emit 'g' _emit 'e' _emit 'B' _emit 'o' _emit 'x' _emit 'W' _emit 0 pUser32dll: _emit 'U' _emit 's' _emit 'e' _emit 'r' _emit '3' _emit '2' _emit '.' _emit 'd' _emit 'l' _emit 'l' _emit 0 pFreeLibrary: _emit 'F' _emit 'r' _emit 'e' _emit 'e' _emit 'L' _emit 'i' _emit 'b' _emit 'r' _emit 'a' _emit 'r' _emit 'y' _emit 0 over: POPAD _emit 0x90 _emit 0x90 _emit 0x90 _emit 0x90 _emit 0x90 _emit 0x90 _emit 0x90 _emit 0x90 _emit 0x90 _emit 0x90 _emit 0x90 _emit 0x90 _emit 0x90 } } 要把代码Copy到指别的地方,就要知道要Copy的字节数,本来,在masm32中很简单的一件事,定义两个标号就OK了,在这VC里确变得麻烦起来。 ULONG GetMyFunctionLen(PULONG pfn) { ULONG res = 0; __asm { MOV EAX, 0x90909090 // 新的函数以0x90909090作为结束的标志 MOV ECX, 0xFFFFFFFF MOV EDI, pfn CLD REPNZ SCASD NOT ECX DEC ECX MOV res, ECX } return res * 4; } 自己写了一段代码比较两个字符串。 BOOLEAN IsStringEqual(PCHAR psrc, PCHAR pdest) { BOOLEAN res = FALSE; __asm { XOR EAX, EAX MOV ECX, EAX DEC ECX MOV EDI, psrc CLD REPNZ SCASB NOT ECX DEC ECX MOV EDX, ECX MOV ECX, EAX DEC ECX MOV EDI, pdest REPNZ SCASB NOT ECX DEC ECX CMP ECX, EDX JNE over MOV ESI, psrc MOV EDI, pdest REPE CMPSB JNZ over MOV res, TRUE over: } return res; } 水平有限,纰漏之处难免,希望诸位大虾斧正。 以上几个头文件都是一些结构和宏的定义,就没有帖出来了。 若有不正确的地方,欢迎交流,QQ: 22517257 参考资料: Windows 环境下32位汇编语言程序设计 罗云彬 著 Rootkits: Subverting the Windows Kernel By Greg Hoglund, James Butler Undocumented Windows NT Undocumented Windows 2000 Secrets |