《Docker容器常见故障排查及处理.docx》由会员分享,可在线阅读,更多相关《Docker容器常见故障排查及处理.docx(24页珍藏版)》请在三一办公上搜索。
1、近年来,以Docker和kubernetes为代表的容器技术日新月异,但我们在容器的使用过程中,也会碰到各种困扰和难题。本文针对DoCker容器部署、维护过程中,产生的问题和故障,做出有针对性的说明和解决方案,希望可以帮助到大家去快速定位和解决类似问题故障。Docker是一种相对使用较简单的容器,我们可以通过以下几种方式获取信息:1通过dockerrun执行命令,或许返回信息2、通过dockerlogs去获取日志,做有针对性的筛选3、通过Systemctlstatusdocker查看docker服务状态4、通过journalctl-udocker.service查看日志以下是整理的docker
2、容器类问题故障,分为9个类一、启动类故障1docker:CannotconnecttotheDockerdaemonatunixvarrundocker.sock.Isthedockerdaemonrunning?原因:DOCkeI未正常启动解决方式:Systemctlstartdocker2、can,tcreateunixsocketvarrundocker.sock:isadirectory原因:docker.sock不能创建解决方式:rm-rfvarrundocker.sock然后重新启动docker3、Jobfordocker.servicefailed.FailedtostartDo
3、ckerApplicationdocker.service:mainprocessexited,.REFa1edtoStartDOCkerAPC1XCatOnCOUnitdocker.serviceenteredfailedstate.原因:Selinux引起解决方式:etcsysconfig/selinux,把selinux值改为disabled重启docker解决4、docker:ErrorresponsefromdaemonvarlibdockeroverlayXXXXXXXXXXXXXXXXXXXXXXX:nosuchfileordirectory.原因:docker没有指定目录或文件
4、解决方式:Systemctlstopdockerrm-rfvarlibdocker*systemctlstartdocker重启run镜像启动容器5、docker:Errorresponsefromdaemon:Conflict.ThecontainernameXXXisalreadyinusebycontainerXXXn.Youhavetoremove(orrename)thatcontainertobeabletoreusethatname.原因:dockername重名解决方式:改名容器或者删除重建容器6、Error:Connectionactivationfailed:Nosuita
5、bledevicefoundforthisconnection原因:网卡配置问题解决方式:重启网卡7、系统重启后docker无法启动报错为:dockerO:iptables:Nochain/target/matchbythatname原因:docker服务iptables问题解决方式:重启docker服务systemrestartdocker8、Errorstartingdaemon:errorinitializinggraphdriver:drivernotsupported使用OVerIay2存储驱动启动dockerdaemon报错原因:daemon缺少配置解决方式:添加配置:etcdoc
6、kerdaemon.jsonstorage-driver:overlay2,storage-opts:overlay2.override-kernel-check=truen)9、Failedtostartdocker.service:Unitdocker.serviceismasked.未知原因:docker被mask解决方式:Systemctlunmaskdocker.Servicesystemctlunmaskdocker.socketsystemctlstartocker.service10Failedtostartdocker.service:Unitisnotloadedprope
7、rly:Invalidargument,etcsystemdsystemdocker.service:1Assignmentoutsideofsection.Ignoring.docker.servicelacksbothExecStart=andExecStop=setting.Refusing.未知原因:docker服务无法正常load解决方式:卸载docker,删除docker.service重新安装docker11docker-compose启动容器时报错:usrlibpython2.7site-packagesrequests/init.py:80:RequestsDependenc
8、yWarning:urllib3(1.22)orchardet(2.2.1)doesntmatchasupportedversion!RequestsDependencyWarning)未知原因:PiP相应组件版本不支持解决方式:pipuninstallurllib3pipuninstallchardetpipinstallrequests12docker容器重启故障强杀docker进程后,重启dockerodocker中的容器无法启动并报错dockerrestartXXXXXXXErrorresponsefromdaemon:CannotrestartcontainerXXXXXXX:con
9、tainerXXXXXXXXXXXXXXXXm:alreadyexists原因:旧容器未安全退出解决方式:docker-containerd-ctraddressrundockercontainerddocker-containerd.socknamespacecrmdockerstart容器13、docker重启错误-重启命令一直卡住Systemctlrestartdocker卡住未知原因:可能是启动的容器数量过多,或者磁盘IO问题解决方式:Systemctlstartdocker-cleanup.servicesystemctlstartdocker二、权限问题报错14Gotpermiss
10、iondeniedwhiletryingtoconnecttotheDockerdaemonsocketatUniX:varrundocker.sock解决方式:查看varrundocker.sock所在用户组将用户重新加入docker组中,usermod-aGdocker$USER15、chownsocketatstepGROUP:Nosuchprocess::FailedtochownsocketatstepGROUP:Nosuchprocessdocker,socketntrolprocessexited,code=exitedstatus=:FailedtolistenonDocker
11、SocketfortheAPI.原因:docker无法找到GroUP组信息,docker组有可能被误删除解决方式:groupadddocker16原因:非ROot用户管理DOCkeI时,权限不足解决方式:groupadddockerusennod-a-Gdockeruser17、dockercommit镜像时报错Errorprocessingtarfile(exitstatus1):unexpectedEOF原因:可能是权限问题引起解决方式:chmod+x加一个执行权限三、镜像和仓库问题报错18、原因:DOCker仓库无法访问解决方式:修改Docker仓库源为国内或者自建的仓库源修改etcdo
12、ckerdaemon.json19、推送本地镜像报错ThepushreferstoarepositoryXXXXGet原因:dockerregistry未采用https服务所致解决方式:etcdockerdaemon.json文件写入:insecure-registries:)20usrbindocker-current:Errorresponsefromdaemon:ociruntimeerror:container_linux.go:startingcontainerprocesscaused,exec:7binbash:executablefilenotfoundin$PATH.原因:D
13、OCker镜像自身问题或者DOCker引擎版本比较低导致解决方式:可以升级DOCker版本服务21、构建镜像,执行ChoWn-R非常慢原因:DOCker使用写时复制策略,所以ChOWn命令执行时,会将上层镜像文件全部复制到当前层,然后再修改权限,再写入文件系统。解决方式:不应该使用ChoWn-R这类大批量修改文件的命令22、dockerbuild构建镜像的时候报错:Messagefromsyslogdkernel:unregister_netdevice:waitingforIotobecomefree.Usagecount=1原因:dockerengine版本过高解决方式:dockereng
14、ine版本需要和docker内部镜像的内核版本匹配23、docker:Errorresponsefromdaemon:containerd:containerdidnotstartbeforethespecifiedtime-out.ERRO0133errorgettingeventsfromdaemon:contextcanceled原因:修改完dockerrootdir,重启后,下载镜像报错解决方式:重启docker服务或者重启服务器四、资源问题报错25、Dockernospaceleftondevice原因:空间不足解决方式:清理空间,删除未被使用的容器,镜像等资源dockersyste
15、mprune-a26varlibdockercontainers占用过大原因:日志文件占用过大解决方式:catdevnull*-json.log或者增加dockerd启动参数ZetcZdockerZdaemon.json,log-driver:json-file,log-opts:,max-size,2G,max-file,10n27maxvirtualmemoryareasvm.max_map_count165530istoolow,increasetoatleast(262144原因:系统参数默认配置过小解决方式:修改etcsysctl.conf里面的Vm.maxnap_count调大28
16、Gotstartingcontainerprocesscausedprocess_linux.go:301:runningexecsetnsprocessforinitcausedexitstatus40:unknown.fromtimetotime原因:可能是CaChe问题引起解决方式:echo1/proc/sys/vm/drop_caches29、docker本机启动多台容器导致出现后续容器启动失败原因:查看硬盘空间是否满,如果不是硬盘空间问题引起解决方式:vimZetcZsysctLconf添加参数fs.aio-max-nr=1048576sysctl-p30DOCker启动异常,状态反
17、复restartingReStarting(1)LessthanaSeeondagoDockerlogs容器名,查看异常日志查varlogmessageskernel:Outofmemory:Killprocess2814Ei(java)score52orsacrificechildkernel:Outofmemory:Killprocess2976(java)score54orsacrificechildkernel:Outofmemory:Killprocess3577(java)score47orsacrificechildkernel:Outofmemory:Killprocess36
18、31(java)score47orsacrificechildkernel:Outofmemory:Killprocesskonnolitmomnnvifi11CWaCC3634(java)score47orsacrificechild,iav=cmr*o7CrcarriF,irorh1d原因:内存跑满,引起OoM解决方式:释放内存后,再启动容器五、版本不兼容报错31overlayft:Can,tdeletefilemovedfrombaselayertonewlycreateddirevenonext4原因:Centos提供的文件系统XFS和OVerlay兼容问题导致解决方式:这个问题的修复
19、在内核4.4.6以上32、docker:Errorresponsefromdaemon:OCIruntimecreatefailed:container_linux.go:344:startingcontainerprocesscausedprocess_linux.go:297:gettingthefinalchildspidfrompipecausedreadinit-p:connectionresetbypeer:unknown.原因:DOCker版本和操作系统版本不匹配解决方式:重新安装和操作系统内核支持的docker版本六、网络或端口问题报错33、WARNING:IPv4forwar
20、dingisdisabled.Networkingwillnotwork.原因:ipv4网络无法转发解决方式:usrlibSySCtLd/00-SyStem.conf在最后一行添加net.ipv4.ip_forward=1重启network服务。删除错误的容器,再次创建新容器34Creatingnetworkxxxxxxxwiththedefaultdriver原因:docker网关冲突启动容器、docker-compose启动容器后,断网问题解决方式:配置docker-compose.yml内给启动的容器配置参数network_mode:bridge35、Unabletofindanodet
21、hatsatisfiesthefollowingconditionsportxxxx原因:当容器使用端口映射(dockerrun-pxxxx:XXXX或COmPOSe模板中的POrtS)之后系统会在宿主机上创建一个Por3通过NAT来访问容器的指定POrt。如果宿主机上的端口被容器或者系统进程占用,就会导致端口分配失败。解决方式:清除占用端口的容器或者进程,或调整容器端口映射的宿主机端口避免冲突36、Errorresponsefromdaemon:serviceendpointwithnamexxxalready原因:端口已经被占用解决方式:重启docker容器37、docker:Errorr
22、esponsefromdaemon:driverfailedprogrammingexternalconnectivityonendpointXXXXX:Bindfor0.0.0.0:80failed:portisalreadyallocated原因:容器端口冲突解决方式:更换宿主机绑定端口七、DOCker安装报错38、安装docker报Requires:container-selinux=2.9Requires:container-selinux=2.9Youcouldtryusing-skip-brokentoworkaroundtheproblemYoucouldtryrunning:r
23、pm-Va-nofiles-nodigest原因:Container-SelinUX版本低或者是没安装的原因解决方式:wget-Oetcyum.repos.dCentOS-Base.repoyuminstallepel-releaseyummakecacheyuminstallcontainer-selinux39、安装docker-compose时报错uImportError:module*objecthasnoattributecheck-specifier,v原因:setuptools版本问题解决方式:升级setuptools到30.1.0版本以上版本pipinstall-upgrade
24、setuptools40、安装docker-compose时报错DEPRECATION:Python2.7willreachtheendofitslifeonJanuary1st,2020.PleaseupgradeyourPythonasPython2.7wontbemaintainedafterthatdate.AfutureversionofpipwilldropsupportforPython2.7.原因:Python2.7提示舁级解决方式:pipinstall-i八、DOeker删除报错41、docker删除容器报错Errorresponsefromdaemon:Driverover
25、layfailedtoremoverootfilesystemxxxxx:remove/var/1ib/docker/overlay2xxxxx/merged:deviceorresourcebusyErrorresponsefromdaemon:Driveroverlay2failedtoremoverootfilesystemal9c5ccealee657fdd9d23y23bfac564c9c85c32cd4198b29e24eda41G3a0deefe56a5e8f7d95e783ea09fmerged:deviceOrres。UrCebusy原因:容器挂载数据卷,无法直接删除解决方式
26、:grepdockerproc*mountinfbgrepxxxxxkill进程后再重新删除容器42、状态dead的容器删除报错Errorresponsefromdaemon:Driveraufsfailedtoremoverootfilesystemxxxxxxxxxxxxxxxx:aufs:unmounterrorafterretries:varlibdockeraufsmntxxxxxxxx:deviceorresourcebusy原因:dead状态容器无法删除,还在占用资源解决方式:dockerrm-fv容器id过几分钟后会自动删除43docker删除镜像报错Errorresponse
27、fromdaemon:conflict:unabletoremoverepositoryreferenceXXXX(mustforce)-containerXXXXisusingitsreferencedimageYYYY原因:镜像正在被某容器使用解决方式:需要删除相关ID容器后,才能删除镜像44docker删除镜像报错Errorresponsefromdaemon:conflict:unabletodeleteXXXXXXXXXX(mustbeforced)-imageisreferencedinmultiplerepositories原因:镜像IOginPUSh了远端其他仓废解决方式:如果
28、不需要此镜像,dockerrmi-f强删45docker删除镜像报错Errorresponsefromdaemon:conflict:unabletodeleteXXX(cannotbeforced)-imagehasdependentchildimages原因:存在依赖于父镜像的子镜像解决方式:强制删除镜像或者批量删除容器,再删除镜像九、其他报错46、docker:Errorresponsefromdaemon:driverfailedprogrammingexternalconnectivityonend-pointXXXXXXX:(iptablesfailed:iptableswait-
29、tfilter-ADOCKER!-idockerO-odockerO-ptcp-d172.17.0.2-dport8080-jACCEPT:iptables:Nochain/target/matchbythatname.原因:防火墙问题引起解决方式:关闭防火墙,重启docker47、执行dockerinfo出现如下警告WARNING:bridge-nf-call-iptablesisdisabledWARNING:bridge-nf-call-ip6tablesisdisabled原因:配置问题引起,需委启用bridge-nf-call-iptables解决方式:vietcsysctl.con
30、f添加以下内容net.bridge.bridge-nf-call-ip6tables=1net.bridge.bridge-nf-call-iptables=1net.bridge.bridge-nf-call-arptables=148、docker数据库相关报错使用Docker创建mysql容器闪退DatabaseisuninitializedandpasswordoptionisnotspecifiedERROREntrypoint:DatabaseisuninitializedandpasswordoptionisnotspecifiedYOUneedtospecifyoneofMYS
31、QI_ROOT_PASSWORD,MYSQL_ALLOW_EMPTY_PASSWORDandMYSQL_RANDOM_ROC解决方式:dockerrun-d-eMYSQL_ROOT_PASSWORD=密码-p3306:3306mysql镜像为避免出现各种奇怪且偶发的问题,运维和开发人员应该有规范的去使用docker容器,最大程度的去避免因为使用不当而引起的故障,参考以下:Docker使用规范建议尽量使用最近1-2年的新的稳定的docker版本不要去安装今年前很老的版本,大量的bug已经被新版本更新解决掉了尽量不要去创建非常大的镜像,比如5G10G以上的镜像要尽量轻量化,去除不必要的软件,数据等
32、容器内挂载宿主机配置,使用只读容器需要-V宿主机的配置文件,尽量使用r。只读数据要挂载宿主机物理硬盘或存储节点上不要直接在容器里run,避免容器宕机引起数据丢失应用日志一定要挂到宿主机上不要直接打印到容器内,避免只能dockerlogs方式查看,避免去VUlUme目录里查看日志不要只使用IateSt标签Tag要有个管理标准,可以根据tag查找对应版本不要使用容器ip,配置里更不能写死(默认172.17.0.x)容器重启后,ip很可能会变尽量不要在单容器内跑多进程容器不是虚拟机,尽量做到1个容器,1个进程跨环境镜像保持一致不论是测试,UAT,生产环境,尽量保持同一个镜像,不要变更,环境变更只需要
33、变更环境变量参数做区分一定监控docker容器,即使发现问题建议使用prometheus监控容器一定要限初docker容器的资源尤其是CPU,内存,硬盘空间,甚至是网络等,避免侵占宿主机的硬件资源24个常见的Docker疑难杂症处理技巧这里主要是为了记录在使用Docker的时候遇到的问题及其处理解决方法。IDocker迁移存储目录默认情况系统会将Docker容器存放在varlibdocker目录下问题起因今天通过监控系统,发现公司其中一台服务器的磁盘快慢,随即上去看了下,发现varlibdocker这个目录特别大。由上述原因,我们都知道,在varlibdocker中存储的都是相关于容器的存储,
34、所以也不能随便的将其删除掉。那就准备迁移docker的存储目录吧,或者对var设备进行扩容来达到相同的目的。更多关于dockerd的详细参数,请点击查看官方文档地址。但是需要注意的一点就是,尽量不要用软链,因为一些docker容器编排系统不支持这样做,比如我们所熟知的k8s就在内。# 发现容器启动不了了ERROR:cannotcreatetemporarydirectory!# 查看系统存储情况# du-hmax-depth=1# 解决方法1添加软链接# 1.停止docker服务# sudoSystemctlstopdocker# 2.开始迁移目录$sudomvvarlibdocker/dat
35、a/# 3.添加软链接$sudoIn-sdatadockervarlibdocker# 4.启动docker月艮务# sudoSystemctlstartdocker# 解决方法2改动docker配置文件# 方式一改动docker启动配置文件$sudovimlibsystemdsystemdocker.serviceExecStart=usrbindockerdgraph=datadocker# 方式二改动docker启动配直文件# sudovimetcdockerdaemon.json,live-restoren:true,graph:7datadocker,操作注意事项在迁移docker目
36、录的时候注意使用的命令,要么使用mv命令直接移动,要么使用CP命令复制文件,但是需要注意同时复制文件权限和对应属性,不然在使用的时候可能会存在权限问题。如果容器中,也是使用root用户,则不会存在该问题,但是也是需要按照正确的操作来迁移目录。# 使用mv命令$sudomvvarlibdockerdatadocker# 使用CP命令# sudoCP-arvZdataZdockerdata2docker下图中,就是因为启动的容器使用的是普通用户运行进程的,且在运行当中需要使用tmp目录,结果提示没有权限。在我们导入容器镜像的时候,其实是会将容器启动时需要的各个目录的权限和属性都赋予了。如果我们直接
37、是CP命令单纯复制文件内容的话,就会出现属性不一致的情况,同时还会有一定的安全问题。fIl-ddatadockerdrwx-x-x.14rootroot182Aug113:35datadockerFIrdotlocatnost11-ddata2dockerdrwx-x-x14rootroot234Aug115:16data2dockerrootlocalhostscriberj#DOCker迁移存储目录2Docker设备空间不足IncreaseDockercontainersizefromdefaultIOGBonrhe!7.问题起因一容器在导入或者启动的时候,如果提示磁盘空间不足的,那么多半
38、是真的因为物理磁盘空间真的有问题导致的。如下所示,我们可以看到/分区确实满了。Sdf-Th Filesystem Size devvda 140Gtmpfs 7.8G devvdb 1493G# 查看物理磁盘空间UsedAvailUse%Mountedon40GOG100%/07.8G0%devshm289G179G62%mnt如果发现真的是物理磁盘空间满了的话,就需要查看到底是什么占据了如此大的空间,导致因为容器没有空间无法启动。其中,docker自带的命令就是一个很好的能够帮助我们发现问题的工具。# 查看基本信息# 硬件驱动使用的是devicemapper,空间池为docker-252#
39、磁盘可用容量仅剩16.78MB,可用供我们使用$dockerinfoContainers:1Images:28StorageDriver:devicemapperPoolName:docker-252:1-787932-poolPoolBlocksize:65.54kBBackingFilesystem:extfsDatafile:ZdevZloopOMetadatafile:devloop1DataSpaceUsed:1.225GBDataSpaceTotal:107.4GBDataSpaceAvailable:16.78MBMetadataSpaceUsed:2.073MBMetadata
40、SpaceTotal:2.147GB解决方法通过查看信息,我们知道正是因为docker可用的磁盘空间不足,所以导致启动的时候没有足够的空间进行加载启动镜像。解决的方法也很简单,第一就是清理无效数据文件释放磁盘空间(清除日志),第二就是修改docker数据的存放路径(大分区)。# 显示哪些容器目录具有最大的日志文件# du-dl-hvarlibdockercontainerssort-h#清除您选择的容器日志文件的内容$catdevnull/var/lib/docker/containers/container_id/container_log_name问题起因二显然我遇到的不是上一种情况,而是
41、在启动容寤的时候,容器启动之后不久就显示是Unhealthy的状态,通过如下日志发现,原来是复制配置文件启动的时候,提示磁盘空间不足。后面发现是因为CentOS7的系统使用的docker容器默认的创建大小就是IOG而已,然而我们使用的容器却超过了这个限制,导致无法启动时提示空间不足。2019-08-1611:11:15,816INFOspawned:app-demowithpid8352019-08-1611:11:16,268INFOexited:app(exitstatus1;notexpected)2019-08-1611:11:17,270INFOgaveup:appenteredFA
42、TALstate,toomanystartretriestooquicklycp:cannotcreateregularfile7etcsupervisorconf.dgrpc-app-demo.conf:Nospaceleftondevicecp:cannotcreateregularfile7etcsupervisorconf.dgrpc-app-demo.conf:Nospaceleftondevicecp:cannotcreateregularfile7etcsupervisorconf.dgrpc-app-demo.conf:Nospaceleftondevicecp:cannotc
43、reateregularfile7etcsupervisorconf.dgrpc-app-demo.conf:Nospaceleftondevice解决方法1改动docker启动配置文件# etcdockerdaemon.jsonlive-restore:true,storage-opt:,dm.basesize=20G)解决方法2改动SyStemCtI的docker启动文件# 1.stopthedockerservice$sudosystemctlstopdocker# 2.rmexisedcontainer$sudon-rfvarlibdocker# 2.edityourdockerser
44、vicefile$sudovimusrlibsystemdsystemdocker.service# 3.findtheexecutionlineExecStart=usrbindockerdandchangeitto:ExecStart=usrbindockerd-storage-optdm.basesize=20G# 4.startdockerserviceagain# sudosystemctlstartdocker#5.reloaddaemon$sudosystemctldaemon-reload问题起因三还有一种情况也会让容器无法启动,并提示磁盘空间不足,但是使用命令查看发现并不是因
45、为物理磁盘真的不足导致的。而是,因为对于分区的inode节点数满了导致的。#报错信息Nospaceleftondevice解W方法因为ext3文件系统使用inodetable存储inode信息,而xfs文件系统使用B+tree来进行存储。考虑到性能问题,默认情况下这个B+tree只会使用前ITB空间,当这ITB空间被写满后,就会导致无法写入inode信息,报磁盘空间不足的错误。我们可以在mount时,指定inode64即可将这个B+tree使用的空间扩展到整个文件系统。# 查看系统的inode节点使用情况$sudodf-i# 尝试重新挂载$sudomount-oremount-onoatime
46、,nodiratime,i11ode64,nobarrierdevvdal补充知识文件储存在硬盘上,硬盘的最小存储单位叫做扇区(SeCtO每个扇区储存512字节(相当于0.5KB)。操作系统读取硬盘的时候,不会一个个扇区地读取,这样效率太低,而是一次性连续读取多个扇区,即一次性读取一个块(block)o这种由多个扇区组成的块,是文件存取的最小单位。块的大小,最常见的是4KB,即连续八个SeCtOr组成一个block块。文件数据都储存在块中,那么很显然,我们还必须找到一个地方储存文件的元信息,比如文件的创建者、文件的创建日期、文件的大小等等。这种储存文件元信息的区域就叫做索引节点(inode)o每一个文件都有对应的inode,里面包含了除了文件名以外的所有文件信息。inode也会消耗硬盘空间,所以硬盘格式化的时候,操作系统自动将硬盘分成两个区域。一个是数据区,存放文件数据;另一个是inode区(inodet