这配置可以玩绝地求生大逃杀菜鸡图吃鸡吗? 要换哪里吗?

1605人阅读
linux driver(2)
在基于linux操作系统的相关开发工作当中遇到了Segment fault,bus error两个引起死机的严重问题,一直想对这个问题进行总结,目前有时间就赶紧落实了。
二、我理解的段错误
首先谈一下对段的理解:段是内存模式设计的一个结果,各个处理器的地址空间并不一致,但它们都被分割成为大小相同的单位区域,每个这样的区域被称为段,记得大学时候学x86架构时的段是64k。
理解了段的含义,那么就可以理解段错误是由于内存管理单元(负责支持虚拟内存的硬件)的异常所导致,我一般直接理解为我们应用编程用的虚拟地址通过MMU转换为实际物理地址的过程中出现了问题。
三、导致段错误的几种情况
1、 引用一个包含非法值的指针(当然包括空指针)。
2、 未得到正确的权限的时候进行访问,例如往只读的内存地址写数据。
3、 内存越界(数组越界,变量类型不一致等),下面给个例子
char MyArray[1];
printf(&%c&, MyArray[]);
比较极端的一个例子!!!
依据段错误的定义,可以推断段错误的原因大概也都是一样的,就是所用的地址没有物理内存所对应,各种情况只有平时多积累啦。
四、段错误为什么这么麻烦?以及想到的一些解决办法
比较常见的是指针使用不规范导致,林锐的《高质量c++/c编程指南》关于指针的使用说的比较清楚。
比较让人郁闷的是glibc库中基本所有的函数都默认形参指针是非空的(如果strcpy对每个参数都进行检查就好了!),还有linux的一些系统函数也是如此!多次调用的系统函数可以考虑给它做件衣服(封装一层,添加错误处理等),例如《UNIX网络编程》一书封装了大量的套接口API,并称之为包裹函数(难怪专家的代码bug要少的多!)。当然我们自己写的函数也要尽量要检查一下入口参数。
解决段错误问题,我常用的是两个基本办法:加打印输出判断位置检查代码、用gdb找到段错误的位置,当然网上还有一些其他的办法和工具。
段错误还碰到过更痛苦的情况:死机打印Segment fault,后面没有栈的相关打印,用gdb跟踪时是一个信号,而不是应用层的进程。这种情况让我恼火的很,已经解决过这样的问题,但仍然一头雾水:这种问题可能是应用层的错误,当时通过目前手头上的所有手段都找不到应用层的问题,仅仅看到了这个异步的信号。而信号是由硬件中断产生的,由于中断是异步发生的(其发生的时间是不可预测的),对中断的编程和判断当然是非常困难的。
五、类似于段错误的另外一个痛苦的错误:bus error
bus error这个错误我这碰到过,但是没有真正的解决过。也总结一下:
1、硬件故障,不用说,咱们程序员碰到的通常不是这个原因,也不要把问题轻易的归结为硬件。
2、linnux平台上执行malloc,如果没有足够的RAM,linux不是malloc失败返回,而是向当前进程分发SIGBUS信号。注:来源于网络,不敢确认。
3、在一次linux内核开发者大会上听到过产生bus error的另外一种情况:驱动程序写的比较“顽皮”,这个一般在linux的release版本是没有的。
4、大多数参考文献基本上把总线错误列为由于未对齐的读或者写操作引起的。对齐的意思就是数据项只能存储在地址是数据项大小整数倍的内存位置上。我所接触过的嵌入式CPU基本都是RISC架构,都需要数据对齐。
Bus error和segment fault的区别:
我这理解的segment fault是应用的地址对应的实际物理地址是无效的,即通过硬件管理单元MMU的时候失败而上报错误;而bus error对应的物理地址是有效的,当然是可以通过MMU的,由于cpu体系架构对字节对齐的限制,此时总线是不能正确使用该指针地址的。当然我觉得这种情况编译器应该给个警告或者错误(具体的没研究过),否则各种调试手段基本起的作用就不大了,只能靠检查原始代码了。
六、解决和研究类似问题的一点体会
这类问题的理解和解决有时候需要很多计算机相关的基础理论知识和linux操作系统的一些知识,平时多看一些理论书籍在很多时候还是非常有用的。另外重视编译警告和编程规范有时候可以避免一些令人恼火的bug。
最近在Linux环境下做C语言项目,由于是在一个原有项目基础之上进行二次开发,而且项目工程庞大复杂,出现了不少问题,其中遇到最多、花费时间最长的问题就是著名的“段错误”(Segmentation Fault)。借此机会系统学习了一下,这里对Linux环境下的段错误做个小结,方便以后同类问题的排查与解决。
1. 段错误是什么
一句话来说,段错误是指访问的内存超出了系统给这个程序所设定的内存空间,例如访问了不存在的内存地址、访问了系统保护的内存地址、访问了只读的内存地址等等情况。这里贴一个对于“段错误”的准确定义(参考):
A segmentation fault (often shortened to segfault) is a particular error condition that can occur during the operation of computer software. In short, a segmentation fault occurs when a program attempts to access a memory location that it is not allowed to access, or attempts to access a memory location in a way that is not allowed (e.g., attempts to write to a read-only location, or to overwrite part of the operating system). Systems based on processors like the Motorola 68000 tend to refer to these events as Address or Bus errors.
Segmentation is one approach to memory management and protection in the operating system. It has been superseded by paging for most purposes, but much of the terminology of segmentation is still used, &segmentation fault& being an example. Some operating systems still have segmentation at some logical level although paging is used as the main memory management policy.
On Unix-like operating systems, a process that accesses invalid memory receives the SIGSEGV signal. On Microsoft Windows, a process that accesses invalid memory receives the STATUS_ACCESS_VIOLATION exception.
2. 段错误产生的原因
2.1 访问不存在的内存地址
#include&stdio.h&
#include&stdlib.h&
void main()
int *ptr = NULL;
*ptr = <span style="color:#;
2.2 访问系统保护的内存地址
#include&stdio.h&
#include&stdlib.h&
void main()
int *ptr = (int *)<span style="color:#;
*ptr = <span style="color:#0;
2.3 访问只读的内存地址
#include&stdio.h&
#include&stdlib.h&
#include&string.h&
void main()
char *ptr = &test&;
strcpy(ptr, &TEST&);
2.4 栈溢出
#include&stdio.h&
#include&stdlib.h&
void main()
等等其他原因。
3. 段错误信息的获取
程序发生段错误时,提示信息很少,下面有几种查看段错误的发生信息的途径。
dmesg可以在应用程序crash掉时,显示内核中保存的相关信息。如下所示,通过dmesg命令可以查看发生段错误的程序名称、引起段错误发生的内存地址、指令指针地址、堆栈指针地址、错误代码、错误原因等。以程序2.3为例:
panfeng@ubuntu:~/segfault$ dmesg
[ ] segfault3[2700]: segfault at 80484e0 ip 00d2906a sp bfbbec3c error 7 in libc-2.10.1.so[cbe000]
使用gcc编译程序的源码时,加上-g参数,这样可以使得生成的二进制文件中加入可以用于gdb调试的有用信息。以程序2.3为例:
panfeng@ubuntu:~/segfault$ gcc -g -o segfault3 segfault3.c
使用nm命令列出二进制文件中的符号表,包括符号地址、符号类型、符号名等,这样可以帮助定位在哪里发生了段错误。以程序2.3为例:
panfeng@ubuntu:~/segfault$ nm segfault3
08049f20 d _DYNAMIC
08049ff4 d _GLOBAL_OFFSET_TABLE_
080484dc R _IO_stdin_used
w _Jv_RegisterClasses
08049f10 d __CTOR_END__
08049f0c d __CTOR_LIST__
08049f18 D __DTOR_END__
08049f14 d __DTOR_LIST__
080484ec r __FRAME_END__
08049f1c d __JCR_END__
08049f1c d __JCR_LIST__
A __bss_start
0804a00c D __data_start
t __do_global_ctors_aux
t __do_global_dtors_aux
D __dso_handle
w __gmon_start__
0804848a T __i686.get_pc_thunk.bx
08049f0c d __init_array_end
08049f0c d __init_array_start
T __libc_csu_fini
T __libc_csu_init
U __libc_start_main@@GLIBC_2.0
0804a01c A _end
080484bc T _fini
080482bc T _init
b completed.6990
0804a00c W data_start
b dtor_idx.6992
t frame_dummy
U memcpy@@GLIBC_2.0
使用ldd命令查看二进制程序的共享链接库依赖,包括库的名称、起始地址,这样可以确定段错误到底是发生在了自己的程序中还是依赖的共享库中。以程序2.3为例:
panfeng@ubuntu:~/segfault$ ldd ./segfault3
linux-gate.so.1 =&
(0x00e08000)
libc.so.6 =& /lib/tls/i686/cmov/libc.so.6 (0x)
/lib/ld-linux.so.2 (0x)
4. 段错误的调试方法
4.1 使用printf输出信息
这个是看&#20284;最简单但往往很多情况下十分有效的调试方式,也许可以说是程序员用的最多的调试方式。简单来说,就是在程序的重要代码附近加上像printf这类输出信息,这样可以跟踪并打印出段错误在代码中可能出现的位置。
为了方便使用这种方法,可以使用条件编译指令#ifdef DEBUG和#endif把printf函数包起来。这样在程序编译时,如果加上-DDEBUG参数就能查看调试信息;否则不加该参数就不会显示调试信息。
4.2 使用gcc和gdb
4.2.1 调试步骤
&1、为了能够使用gdb调试程序,在编译阶段加上-g参数,以程序2.3为例:
panfeng@ubuntu:~/segfault$ gcc -g -o segfault3 segfault3.c
2、使用gdb命令调试程序:
panfeng@ubuntu:~/segfault$ gdb ./segfault3
GNU gdb (GDB) 7.0-ubuntu
Copyright (C) 2009 Free Software Foundation, Inc.
License GPLv3&#43;: GNU GPL version 3 or later &http://gnu.org/licenses/gpl.html&
This is free software: you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.
Type &show copying&
and &show warranty& for details.
This GDB was configured as &i486-linux-gnu&.
For bug reporting instructions, please see:
&http://www.gnu.org/software/gdb/bugs/&...
Reading symbols from /home/panfeng/segfault/segfault3...done.
3、进入gdb后,运行程序:
Starting program: /home/panfeng/segfault/segfault3
Program received signal SIGSEGV, Segmentation fault.
0x001a306a in memcpy () from /lib/tls/i686/cmov/libc.so.6
从输出看出,程序2.3收到SIGSEGV信号,触发段错误,并提示地址0x001a306a、调用memcpy报的错,位于/lib/tls/i686/cmov/libc.so.6库中。
4、完成调试后,输入quit命令退出gdb:
(gdb) quit
A debugging session is active.
Inferior 1 [process 3207] will be killed.
Quit anyway? (y or n) y
4.2.2 适用场景
1、仅当能确定程序一定会发生段错误的情况下使用。
2、当程序的源码可以获得的情况下,使用-g参数编译程序。
3、一般用于测试阶段,生产环境下gdb会有副作用:使程序运行减慢,运行不够稳定,等等。
4、即使在测试阶段,如果程序过于复杂,gdb也不能处理。
4.3 使用core文件和gdb
在4.2节中提到段错误会触发SIGSEGV信号,通过man&7&signal,可以看到SIGSEGV默认的handler会打印段错误出错信息,并产生core文件,由此我们可以借助于程序异常退出时生成的core文件中的调试信息,使用gdb工具来调试程序中的段错误。
4.3.1 调试步骤
1、在一些Linux版本下,默认是不产生core文件的,首先可以查看一下系统core文件的大小限制:
panfeng@ubuntu:~/segfault$ ulimit -c
2、可以看到默认设置情况下,本机Linux环境下发生段错误时不会自动生成core文件,下面设置下core文件的大小限制(单位为KB):
panfeng@ubuntu:~/segfault$ ulimit -c 1024
panfeng@ubuntu:~/segfault$ ulimit -c
3、运行程序2.3,发生段错误生成core文件:
panfeng@ubuntu:~/segfault$ ./segfault3
段错误 (core dumped)
4、加载core文件,使用gdb工具进行调试:
panfeng@ubuntu:~/segfault$ gdb ./segfault3 ./core
GNU gdb (GDB) 7.0-ubuntu
Copyright (C) 2009 Free Software Foundation, Inc.
License GPLv3&#43;: GNU GPL version 3 or later &http://gnu.org/licenses/gpl.html&
This is free software: you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.
Type &show copying&
and &show warranty& for details.
This GDB was configured as &i486-linux-gnu&.
For bug reporting instructions, please see:
&http://www.gnu.org/software/gdb/bugs/&...
Reading symbols from /home/panfeng/segfault/segfault3...done.
warning: Can't read pathname for load map: 输入/输出错误.
Reading symbols from /lib/tls/i686/cmov/libc.so.6...(no debugging symbols found)...done.
Loaded symbols for /lib/tls/i686/cmov/libc.so.6
Reading symbols from /lib/ld-linux.so.2...(no debugging symbols found)...done.
Loaded symbols for /lib/ld-linux.so.2
Core was generated by `./segfault3'.
Program terminated with signal 11, Segmentation fault.
0x0018506a in memcpy () from /lib/tls/i686/cmov/libc.6
从输出看出,同4.2.1中一样的段错误信息。
5、完成调试后,输入quit命令退出gdb:
(gdb) quit
4.3.2 适用场景
1、适合于在实际生成环境下调试程序的段错误(即在不用重新发生段错误的情况下重现段错误)。
2、当程序很复杂,core文件相当大时,该方法不可用。
4.4 使用objdump
4.4.1 调试步骤
1、使用dmesg命令,找到最近发生的段错误输出信息:
panfeng@ubuntu:~/segfault$ dmesg
[] segfault3[3320]: segfault at 80484e0 ip 0018506a sp bfc1cd6c error 7 in libc-2.10.1.so[;13e000]
其中,对我们接下来的调试过程有用的是发生段错误的地址:80484e0和指令指针地址:0018506a。
2、使用objdump生成二进制的相关信息,重定向到文件中:
panfeng@ubuntu:~/segfault$ objdump -d ./segfault3 & segfault3Dump
其中,生成的segfault3Dump文件中包含了二进制文件的segfault3的汇编代码。
3、在segfault3Dump文件中查找发生段错误的地址:
panfeng@ubuntu:~/segfault$ grep -n -A 10 -B 10 &80484e0& ./segfault3Dump
121- 80483df:
122- 80483e1:
123- 80483e2:
124- 80483e3:
126- &main&:
127- 80483e4:
128- 80483e5:
129- 80483e7:
$0xfffffff0,%esp
130- 80483ea:
$0x20,%esp
131: 80483ed:
c7 44 24 1c e0 84 04
$0xx1c(%esp)
132- 80483f4:
133- 80483f5:
b8 e5 84 04 08
$0x80484e5,%eax
134- 80483fa:
c7 44 24 08 05 00 00
$0x5,0x8(%esp)
135- 8048401:
136- 8048402:
89 44 24 04
%eax,0x4(%esp)
137- 8048406:
8b 44 24 1c
0x1c(%esp),%eax
138- 804840a:
%eax,(%esp)
139- 804840d:
e8 0a ff ff ff
804831c &memcpy@plt&
140- 8048412:
141- 8048413:
通过对以上汇编代码分析,得知段错误发生main函数,对应的汇编指令是movl $0xx1c(%esp),接下来打开程序的源码,找到汇编指令对应的源码,也就定位到段错误了。
4.4.2 适用场景
1、不需要-g参数编译,不需要借助于core文件,但需要有一定的汇编语言基础。
2、如果使用了gcc编译优化参数(-O1,-O2,-O3)的话,生成的汇编指令将会被优化,使得调试过程有些难度。
4.5 使用catchsegv
catchsegv命令专门用来扑获段错误,它通过动态加载器(ld-linux.so)的预加载机制(PRELOAD)把一个事先写好的库(/lib/libSegFault.so)加载上,用于捕捉断错误的出错信息。
panfeng@ubuntu:~/segfault$ catchsegv ./segfault3
Segmentation fault (core dumped)
*** Segmentation fault
Register dump:
EBX: 00fb3ff4
EBP: bfb7ad38
ESP: bfb7ad0c
EIP: 00ee806a
Trap: 0000000e
ESP/signal: bfb7ad0c
Backtrace:
/lib/libSegFault.so[0x3b606f]
??:0(??)[0xc76400]
/lib/tls/i686/cmov/libc.so.6(__libc_start_main&#43;0xe6)[0xe89b56]
/build/buildd/eglibc-2.10.1/csu/../sysdeps/i386/elf/start.S:122(_start)[0x8048351]
Memory map:
73000 r-xp :01 157 /lib/ld-2.10.1.so
74000 r--p :01 157 /lib/ld-2.10.1.so
75000 rw-p :01 157 /lib/ld-2.10.1.so
003b0 r-xp :01 13105 /lib/libSegFault.so
003b0 r--p :01 13105 /lib/libSegFault.so
003b0 rw-p :01 13105 /lib/libSegFault.so
00c00 r-xp :00 0 [vdso]
00e0d000-00e29000 r-xp :01 4817 /lib/libgcc_s.so.1
00ea000 r--p :01 4817 /lib/libgcc_s.so.1
00e2a000-00e2b000 rw-p :01 4817 /lib/libgcc_s.so.1
00e00 r-xp :01 1800 /lib/tls/i686/cmov/libc-2.10.1.so
00fb00 ---p :01 1800 /lib/tls/i686/cmov/libc-2.10.1.so
00fb00 r--p :01 1800 /lib/tls/i686/cmov/libc-2.10.1.so
00fb00 rw-p :01 1800 /lib/tls/i686/cmov/libc-2.10.1.so
00fb00 rw-p :00 0
49000 r-xp :01 303895 /home/panfeng/segfault/segfault3
4a000 r--p :01 303895 /home/panfeng/segfault/segfault3
4b000 rw-p :01 303895 /home/panfeng/segfault/segfault3
57000 rw-p :00 0 [heap]
b78cf000-b78d1000 rw-p :00 0
b78df000-b78e1000 rw-p :00 0
bfb67000-bfb7c000 rw-p :00 0 [stack]
5. 一些注意事项
1、出现段错误时,首先应该想到段错误的定义,从它出发考虑引发错误的原因。
2、在使用指针时,定义了指针后记得初始化指针,在使用的时候记得判断是否为NULL。
3、在使用数组时,注意数组是否被初始化,数组下标是否越界,数组元素是否存在等。
4、在访问变量时,注意变量所占地址空间是否已经被程序释放掉。
5、在处理变量时,注意变量的&#26684;式控制是否合理等。
6. 参考资料列表
1、/p-.html
2、http://blog.chinaunix.net/space.php?uid=317451&do=blog&id=92412
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:201708次
积分:2091
积分:2091
排名:第15485名
转载:61篇
评论:20条
(1)(5)(8)(1)(7)(1)(6)(3)(5)(5)(7)(7)(10)

我要回帖

更多关于 绝地求生大逃杀鸡王杯 的文章

 

随机推荐