1、安全运营概念
运营安全是关于为保持网络、计算机系统、应用程序和环境运转并以安全和受保护的方式运行所发生的一切事情。它包括人员、应用程序和服务器仅拥有访问所需要的资源的权限,并通过监控、审计和报告控制来实现监督。操作是在网络已开发并得到实现后才产生的。这包括一个运行环境的持续维护和那些每天或每周应该发生的活动,这些活动实际上是日常事务,并且确保网络和个人计算机系统正确、安全地持续运行。
(1)运营部门的角色
确保使用和遵循正确的策略、措施、标准和指南的持续努力,这是公司需要执行的“应尽关注”和“应尽职责”工作的重要方面。
尽管运营安全是保持环境运行在一个必要的安全级别中的持续维护行为,但是当开始执行这些任务时也同样存在义务和法律责任。
总体而言,运营安全设计配置、性能、容错、安全性以及问责和验证管理,其目的在于确保适当的操作标准与合规性要求得到满足。
(2)行政管理
行政管理是运营安全中非常重要的环节。行政管理的一个方面是处理人员问题,包括职责分离和岗位轮换。
- 安全和网络人员安全管理员应当不向网络管理员报告,因为他们职责的侧重点各不相同。以下应是安全管理员而非网络管理员执行的任务:
1、实施和维护安全设备与软件
2、执行安全评估
3、创建和维护用户资料,实现和维护访问控制机制
4、配置和维护强制性访问控制环境中的安全标签
5、管理口策略
6、检查审计日志 - 可问责性
用户访问资源的权限必须被限制和适当地加以控制,以确保过度的特权没有机会对公司及其资源造成损害。当使用资源时,用户的访问尝试和活动需要被适当的监控和审计。 - 阈值级别
公司可以为某些类型的错误预定义阈值,从而在被认为可疑的活动发生之前允许一定数量的错误。
(3)知所必须和最小特权
- 知所必须
基于工作或业务需要被授予最小知悉范围和访问权限
运营安全的关键 - 最小特权
要求用户或进程没有不必要的访问特权来执行工作、任务和功能
目标:限制用户和进程只访问必要的资源和工具来完成指定工作
限制:可访问的资源、用户可以执行的操作 - 控制特权账号
对账号的数量和类型进行严格的控制
小心监控系统的账号管理权限(服务账号、执行脚本的账号)
(IAM)身份和访问管理:用户配置(provisioning开通) 、管理跨多系统的访问权限、本地访问控制系统 - 信任传递:
两个安全域之间的信任关系,允许一个域的主体访问另一个域的客体
(4)职责分离 (会导致合谋)
- 定义
将一个关键任务分成不同的部分,每个部分由不同的人来执行
同谋或合谋能破坏职责分离
进行欺诈需要多人共谋 - 目的
制约,减少故意破坏的几率
补充,减少无意的疏忽和错误的几率 - 原因
不同安全相关任务所需的技能不同
将管理员任务分成多个角色以赋予不同的信任级别
防止安全相关功能委托一个角色或人员 - 系统管理员
最小特权,根据需要确定必要访问和应用
监控,行为被日志审计并发送到一个单独的审计系统中
防止欺诈行为,管理员如果没有勾结他人就没有能力参与恶意活动
背景调查
岗位轮换 - 操作员
工作职责,进行主机的日常操作,确保预定的工作有效进行和解决可能出现的问题
权限说明,操作员具有很高的权限,但低于系统管理员,这些权限可以规避系统的安全策略,应监控这些特权
使用并进行日志审计
安全控制,最小特权、监控(操作员的行为被日志审计并发送到一个单独的审计系统中)、职责分离(管理员如果没有勾结他人就没有能力参与恶意活动)、背景调查 - 安全管理员
作用:定义系统安全设置并协同管理员进行相关配置,提供一种权利制衡,为系统管理员提供审计和审查活动
主要职责:账户管理、敏感标签的分配、系统安全的设置、审计数据的评审
安全管理员和网络管理员的区别:网络管理员关注可用性及用户需要的功能和效率,但效率和功能常以牺牲安全为代价,注重安全常会降低效率,如采用杀毒软件扫描、部署防火墙、IDS等
(5)双人控制(two-persion control)
- 双人操作(two-man rule):双人核验、相互监督
- 双人控制(Dual control):确保单个人不具备足够的权限来破坏安全、例如知识分割
(6)岗位轮换
- 减少个人之间共谋活动的风险
- 起到威慑和检测作用(检测性控制)
(7)强制休假
- 强制员工休假,以便能识别到潜在的欺诈行为,并且使工作轮换成为可能。
- 强制休假具有突然性,使欺诈者没有时间来掩饰欺诈痕迹,欺诈者为了不被发现可能长期放弃休假
- 起到威慑和检测作用(检测性控制)
(8)监控特权
- 特权账户
- root或管理员账号:用于管理设备和系统的默认账号,可以通过严格的更名、强制修改默认密码、logs记录个人使用root账号的行为来进行安全控制,使用root账号远程登录时,会话应执行强加密和监控,使用多因子的身份验证方法。
- 服务账号:可特权访问系统服务和核心应用,可以通过使用复杂的密码并经常更换以及正确的回收和关闭已经泄露的账号策略来进行安全控制。
- 管理员账号:这些账号被分配给需要特权访问来执维护系统任务的指定个人;这些账号应和普通账号分开;账号密码应安全可靠的分发给个人;管理员应书面承认接收账号并遵循组织规则;账号不在使用应立即去除;所有的活动应该被审计;部署额外的日志系统;多因素认证。
- 超级用户:这些账号权限由于工作所需授予了超过了普通用户的权限,但不需要管理员权限;超级用户可以在自己的桌面上安全软件;应书面承认接收账号并遵循组织规则,如签署安全协议书。
- 提供各种账号(尤其是特权账号)的检测与平衡,确保这些账号成为合理的业务需求
- 许可、适用性和背景调查
- 以下情况不应被授予访问权限:
近期严重缺乏相关的判断力
有关角色行为出现重复的高风险模式
角色的表现与非法活动有关 - 账户验证:确定现有的不活动账户
(9)服务级别协议(服务水平协议SLA)
- SLA协议介绍
SLA是一个描述业务或客户从IT部门获得服务水平的简单文档,展示服务测量指标、补救或达不到协议要求需要接受的惩罚
如果因客户导致服务水平达不到要求,不应该受罚
SLA:是IT部门承诺给业务部门或外部客户
OLA(操作级别协议):IT内部
UC支持活动:和供应商签订 - 怎么做
确保双方理解要求
确保协议没有被有意或无意的曲解
不同的级别不同的价格
协商的起点 - 关键部分
服务元素:提供具体服务、服务可用性状态、服务标准(时间窗口)、升级程序、各方职责、费用/服务权衡
管理元素:测量标准的方法定义、报告流程、内容和频率、争议解决过程
SLA保持更新:供应商能力和服务需求变化 - 赔偿
供应商不得不向用户支付由于担保违规造成的任何第三方费用 - SLA不能转让
- 如何验证SLA测量指标:服务可用性、不良率、技术质量、安全
- 可用性指标举例
允许每月7小时中断(99%)、允许每月43.8分钟中断(99.9%)、允许每月4分钟中断(99.99%) - 如何评审SLA
(10)人员安全
- Duress胁迫系统:被胁迫时跳出暗语,则给予救援
- Travel出行
- Privacy隐私
- 应急管理
- 安全培训与安全意识宣贯
(11)可问责
- 用户访问资源的权限必须给予控制,以避免授予过多的权限导致对公司及其资源造成损害
- 应当对用户访问和操作资源的行为进行监控、审计和日志记录,用户ID应包含在日志中
- Routine manner日志应常规记录,并定期分析,可通过自动化方式和人工方式相结合的手段,当超过规定阈值级别报警时,管理员给予及时分析处置。
2、安全配置资源
(1)资产清单
- 跟踪硬件
品牌、型号、MAC地址、序列号、OS或固件版本、位置、BIOS和其他硬件、分配的IP地址、组织资产管理的标签或者条形码、RFID、处理掉前进行净化(sanitize) - 跟踪软件
软件名称、供应商、密码或激活码、许可证类型和版本、许可证数量、许可证到期日、升级或受限许可证、组织软件库管理员或资产管理员、已安装软件的联系人、软件许可控制(仅授权软件才可以安装,禁止安装盗版软件、使用盗版软件或超出授权数量/范围安装使用软件将追究法律责任、应采取手段监控软件license使用情况) - 软件库和硬件库的安全作用
安全专家能迅速找到或减少与硬件类型或版本相关的漏洞
知道网络中硬件资产的类型和位置能快速识别受影响的设备
可以通过扫描发现网络中未经授权的设备 - 维护配置清单
记录和追踪配置的变更能提供网络完整性和可用性的保障
定期检查确保非授权的变更
(2)资源保护
- 硬件需要适当的物理安全措施来维护所需要的机密性、完整性和可用性
- 操作员终端在工作中应限制访问
- 应限制设施的访问
- 应保护移动资产
- 打印设施应位于授权用户的附近
- 网络装置属于核心资产应需要保护
(3)保护措施通用流程
- 识别和评估风险
- 选择恰当的控制措施
- 正确的使用控制措施
- 管理配置
- 评估操作
3、配置管理
(1)配置管理的目标
建立和维护产品、系统和项目整个生命周期的完整性
(2)配置管理适用于不同类别的资产管理
- 物理资产(服务器、笔记本、平板电脑)
- 虚拟资产
- 应用
- 系统,虚拟机
- 云资产云服务共担责任模型:软件即服务(SaaS)、平台即服务(PaaS)、基础设施即服务(LaaS)
(3)作用
- 识别配置项
- 控制配置项及其变更
- 记录和报告配置项的状态和变更活动,同时开展审计
(4)活动
- 识别将要置于配置管理下的配置项、组件及相关工作
- 建立和维持配置管理和变更管理系统来控制工作产品
- 建立和发布内部使用基线以及交付给客户的基线
- 追踪配置项变更请求
- 控制配置项内容变更
- 建立和维护描述配置项的记录
- 执行配置审计来维护配置项的完整性
(5)基线
- 系统初始配置
- 使用镜像技术创建基线
4、变更管理
(1)变更管理流程
- 请求
- 影响评估
- 批准/不批准
- 构建和测试
- 通知
- 实施
- 验证
- 记录
(2)紧急变更
- 得到口头授权
- 该有的测试和回退计划都要有
- 事后再补记录和正式的授权
- ECAB(紧急变更顾问委员会)
5、补丁和漏洞管理
(1)补丁管理的目的
- 建立持续配置环境保护操作系统和应用的已知漏洞
- 很多时候厂商升级版本时不给出升级的原因和理由
(2)补丁管理考虑的风险因素
- 是否通过管理层批准
- 是否遵从配置管理策略
- 是否考虑带宽利用率
- 是否考虑服务可用性
(3)补丁集中管理
- 是补丁管理的最佳实践
- 虚拟化技术使你更容易建立补丁测试实验室
- 一些控制措施可以减轻软件漏洞的影响,如防火墙等
- 逆向工程补丁
通过逆向工程使黑客更容易利用最新的漏洞
通过逆向工程供应商可以推出软件补丁
取决于供应商和黑客逆向工程的速度
逆向工程可以应对0day攻击
(4) 补丁管理的步骤
- 安全专家需要判断是否是补丁
- 是否需要升级补丁
基于风险决策
补丁的重要程度 - 管理层和系统属主来确定是否更新补丁(是否影响业务)
- 更新补丁已经被测试以及残余风险已经被解决
安排更新
部署前通知用户
安排在夜间或周末更新
更新前备份服务器 - 更新完成后需要在生产环境中验证
- 部署完成后确保适当的机器都被更新
- 记录所有变更
(5)安全和补丁信息管理
- 关键部分
补丁管理是要知道关于安全问题和补丁发布两者的信息
知道与它们环境有关的安全问题和软件更新
建议专人和团队负责提醒管理员和用户的安全问题或应用的更新 - 补丁优先级和作业安排
补丁生命周期,指导补丁的正常应用和系统的更新(时间或事件驱动,帮助应用的标准补丁的发布和更新)
作业计划处理关键安全和功能的补丁和更新
(6)补丁测试
- 补丁测试的广度和深度(系统的关键度、处理的数据、环境的复杂度、可用性需求、可用资源)
- 补丁测试流程开始于软件更新的获取和在生产部署后连续通过可用性测试
- 补丁获取时需要进行验证(来源验证、完整性验证包括数字签名和效验和)
- 补丁效验完成后进行测试(测试环境尽可能的接近生产环境、可以用生产环境的子系统作为测试环境)
(7)补丁变更管理
- 变更对补丁管理的每一步都很重要
- 修补应用程序应包含应急和回退计划
- 在变更管理方案中包含风险降低策略
- 在变更管理方案中包含监控和可接受计划(证明补丁成功更新里程碑和可接受标准,允许关闭变更系统中的更新)
(8)补丁安装和部署
- 补丁管理的部署阶段必须具有良好经验的管理员和工程师
- 安装和部署意味着生产系统的补丁和更新会真实实施
- 影响补丁部署的技术因素是工具的选择
- 部署安全补丁(及时完成,可控和可预期)
(9)补丁审计和评估
- 常规审计和评估能衡量补丁管理是否成功和程度
- 两个问题(对于任何已知漏洞或bug什么系统需要修补?系统是否更新真实的补丁?)
- 关键成功因素(资产和主机管理,理想情况下主机管理软件能生成报告,对工具的管理)
- 系统发现和审计作为审计和评估流程的部分
(10)漏洞管理系统
- 脆弱性扫描(识别弱点)
- 漏洞类型
系统缺陷:产品设计缺陷,如缓冲区溢出
配置错误:配置错误导致系统容易受到攻击
策略错误:个人没有按照要求遵守或实施安全措施 - 基于主机的扫描(识别服务器上缺失的安全更新,识别可能导致系统受损的未经授权的软件或服务
- 应用安全扫描
- 数据库安全扫描
(11)系统强化
- 网络设备的物理控制措施(机柜上锁)
- 大容量存储设备介质的控制(物理控制加技术控制)
- 工作站的安全防护措施(做一个母盘)
- 应用系统的安全防护(关注脆弱性的安全检测和修复)
- 组件的安全防护(对组件进行恰当的配置)
6、事件的预防与响应
(1)事件的定义
- Event是一个可被观察、验证记录在案的消极事情
- Incedent是给公司及其安全状况造成负面影响的一些列事件
- 事件响应:某些事件给公司造成影响并引发了安全违规,诸如此类问题的应对称为事件响应或事故处理
- 事件响应已经成为组织安全部门的主要职责
通用框架:建立事件响应能力;事件处理和响应;恢复和回馈
(2)安全事件管理
- 目的是快速恢复
- 包含人、技术和流程
指导所有与事件相关的活动并指导安全人员到一个预定义和预授权路径的解决方案。
描述在事件中所包含的各方的角色和职责中所采取的活动。 - 管理负面事件
- 限制一个事件的影响
- 流程
- 检测:包含事件的检测、识别和通知等子阶段;
根据事件潜在风险级别进行归类,这受到事件的类型、事件来源(内部事件或外部事件)、增长速度、错误抑制能力的影响;
处理假阳性事件,误报是最耗时间的;
如果是真实事件,则需要进行分类(基于组织的需求)和分级(确定潜在风险的等级和事件的关键度) - 响应:CERT/CSIRT;
调查(调查涉及对相关数据的适当收集,收集的数据将在分析和随后的阶段中使用;
管理层必须确认执法部门是否参与调查,是否为起诉而收集证据,是否只修补漏洞) - 遏制/抑制/缓解:遏制事件,降低事件的影响 (缓解的目的是阻止和降低事件的进一步损害,进而开始修复和恢复;适当的遏制措施为事故响应团队争取了对事件根本原因进行正确调查和判定的时间;进行数字取证以保存法庭证据);
遏制举措;
遏制举措应当基于攻击的类别、受事故影响的资产以及这些资产的关键程度; - 分析和追踪:在分析阶段收集更多的数据(日志、视频、系统活动等),从而视图了解事件发生的根本原因,并确定事件的源头是内部还是外部,以及入侵者如何渗透的;
安全专家需要结合正式的培训以及真实的经验来做出适当的解释,往往没有足够的时间;
追踪往往与分析和检查并行,而且需要剔除错误线索,或故意的欺骗的源;
另外比较重要的是一旦根源被识别以及追踪到真正的源头时需要做什么; - 报告:内部报告相关的事件并上报外部相关的机构
- 恢复阶段:将系统恢复或修复到一个已知的良好状态;
目的是使业务得以恢复和运行,让受影响的系统恢复生产,并与其他活动一致;
如果最后已知的映像或状态包含有实际造成事件的原因,那么恢复会变得非常复杂,这种情况新的映像应该生成,并在应用到生产环境前测试;
修复工作包括:阻止敏感端口、禁用易受攻击的服务和功能、打补丁等; - 补救:进行必要的修复工作,确保此类事件不在发生;
RCA根本原因分析:逆向工程来确定事件发生的根本原因,层层向前推演直到发现根源、RCA可迅速跨越技术/文化/组织之间的边界界限、修复(根源分析被管理层评审,决定是否采纳和执行)、ITIL-问题管理(跟踪该事件回到事件根源和解决的根本问题;关于解决缺陷,使得该事件可能成功;需要更长的时间,在操作环境中发生的事件是长期过程,可能需要特定条件,这个条件可能不会频繁发生);
根除是消除威胁的过程; - 总结经验教训:最重要的也是最容易忽略的阶段就是汇报和反馈阶段;
组织往往能在事件中学习甚多,并从错误走向成功;
汇报需要所有的团队成员,包含受事件影响的各个团队的代表;
优点是该阶段能从收集的有意义的数据中开发和追踪响应团队的绩效;
测量指标可以决定预算配置、人员需求、基线、展示审慎和合理性;
难点在于产生对组织有意义的统计分析和指标;
- 检测:包含事件的检测、识别和通知等子阶段;
- 事件处理的策略、角色和职责
- 策略必须清晰、简明、并对事件响应/处理团队授权来处理任意或所有的事件;
- 配备人员必须是经过良好培训的事件响应团队,包括虚拟团队、专职团队、混合模式团队、外包资源;
- 事件处理过程中可能需要升级;
- 响应团队的核心领域;
- 团队建立好需要进行和保持最新的培训,需要耗费极大的资源;
- 小心处理公共消息披露;
(3)检测和预防措施
- 基本防范措施
- 保持系统和应用及时更新
- 移除或禁用不需要的服务和协议
- 使用入侵检测和防御系统
- 使用最新的反恶意软件
- 使用防火墙
- 执行配置管理和系统管理流程
- 了解攻击
- 僵尸网络
- DOS
- SYN泛洪攻击
- Smurf和Fraggle攻击
Smurf攻击是一种病毒攻击,以最初发动这种攻击的程序“Smurf”来命名。这种攻击方法结合使用了IP欺骗和ICMP回复方法使大量网络传输充斥目标系统,引起目标系统拒绝为正常系统进行服务。
Fraggle攻击类似于Smurf,使用UDP应答消息而非ICMP。UDP端口7(ECHO)和端口19(Chargen)在收到UDP报文后,都会产生回应。在UDP的7号端口收到报文后,会回应收到的内容,而UDP的19号端口在收到报文后,会产生一串字符流。它们都同ICMP一样,会产生大量无用的应答报文,占满网路带宽。攻击者可以向子网广播地址发送源地址为受害网络或受害主机的UDP包,端口号用7或19.子网络启用了此功能的每个系统都会向受害者的主机做出响应,从而引发大量的包,导致受害网络的阻塞或受害主机的崩溃;子网上没有启动这些功能的系统将产生一个ICMP不可达的消息,因而仍然消耗带宽。也可将源端口改为Chargen。目的端口为ECHO,这样会自动不停地产生回应报文,其危害性更大。 - ping和flood
- 死亡之ping
- 泪滴攻击
泪滴攻击是拒绝服务攻击的一种。 泪滴是一个特殊构造的应用程序,通过发送伪造的相互重叠的IP分组数据包,使其难以被接收主机重新组合。他们通常会导致目标主机内核失措。 泪滴攻击利用IP分组数据包重叠造成TCP/ IP分片重组代码不能恰当处理IP包。 泪滴攻击不被认为是一个严重的DOS攻击,不会对主机系统造成重大损失。 在大多数情况下,一次简单的重新启动是最好的解决办法,但重新启动操作系统可能导致正在运行的应用程序中未保存的数据丢失。 - land attack
- 零日利用
- 恶意代码
- 中间人攻击(MITM)
- 蓄意破坏
- 间谍活动
- 入侵检测系统IDS系统框架和入侵防御系统IPS系统框架
- 按防护范围分类:基于网络的入侵检测系统(NIDS)、基于主机的入侵检测系统(HIDS)、基于应用的IDS(监控具体应用的恶意行为的IDS)
- 按防护原理分类:基于特征的IDS(又叫基于签名的IDS或基于知识的IDS)、基于异常的IDS(也叫基于行为的IDS或启发式IDS或基于统计的IDS) 、基于规则的IDS
- 入侵响应:如果IDS检测到入侵限制或阻止系统流量,同时也与其他设备集成进行响应
- 告警和报警
IDS基本组件:Sensor传感器(部署检测机制识别事件)、控制和通信(处理告警消息,发送邮件或文本信息等)、报警器
确定谁能收到信息,保障及时的信息传递机制
确定接收的告警类型以及信息的紧急程度 - 错误警报门限
- 区别IDS和IPS(IDS是旁路,IPS是串行,区别IDS的被动检测,IPS具有主动防御能力)
- 其他防御措施
- SIME安全信息事件管理系统
系统日志的缺点是只能提供单个系统的视角,不能提供相关事件涉及的多个系统的日志和信息;
SIME提供一个公共平台,用于日志收集、整理和实时分析;
提供来自多信息源并关于历史事件的报告;
similar日志管理系统是类似的,solution结合SIME解决方案,real time function提供实时分析;
维护严格的日志存储和归档记录;
当今的报告工具可以将安全事件信息转换成有用的业务信息; - 蜜罐和密网(属于检测性控制)
作为诱饵服务器收集攻击者或入侵者攻击系统的相关信息;
蜜罐是诱惑(enticement),enticement是合法的;
陷阱/陷害(entarpment),entarpment是非法的,他不是蜜罐; - 伪缺陷
有意植入系统,旨在引诱攻击者的假漏洞或缺陷 - 填充单元
一个模拟环境,使用假数据来保持入侵者的兴趣 - 警告标语
- 反恶意软件
- 邮件防护
黑名单:以列坏的发送者
白名单:一列好的发送者的邮箱地址或IP地址等
灰名单:不能判断好坏,灰名单告诉邮件发送服务器快速重新发送新的邮件 - 沙箱
软件虚拟化技术
让程序和进程在隔离的环境中运行
限制访问系统的其他文件和系统,沙箱里发生的只在沙箱里发生(最小授权)
取代传统防病毒,可能检测到零日漏洞或隐藏的攻击
恶意软件会使用各种技术规避检测 - 第三方安全服务
将安全服务外包给第三方
动态应用安全测试(DAST):用于检测应用在运行状态中的安全漏洞
- SIME安全信息事件管理系统
(4)自动化事件响应
- 安全编排、自动化和响应(SOAR)
安全编排、自动化和响应(SOAR)是指一组允许组织自动响应某些事件的技术。组织有多种工具可以警告潜在事件。传统上安全管理员手动响应每个告警,这通常要求他们验证告警是否有效再做出响应。很多时候需要执行与以前相似的动作。
SOAR允许安全管理员使用剧本(playbooks)和运行手册(runbooks)定义这些事情和响应。
SOAR技术的难点在剧本中记录所有已知事件和响应,然后配置工具以自动响应。 - 机器学习(ML)和人工智能(AI)工具
机器学习是人工智能的一部分,是指可以通过经验自动改进的系统,机器学习赋予计算机系统学习的能力。
人工智能是一个广泛的领域,包括机器学习。它使机器人能做人类能做的事情。 - 威胁情报
- 威胁情报是指收集有关潜在威胁的数据。
它包括使用各种来源及时收集有关威胁的信息。
允许组织使用它来寻找威胁。 - 了解杀伤链杀伤链在军事上指的是一种攻击的过程,具体是指识别所要打击的目标、向目标派遣兵力、决定并下令攻击目标、最后摧毁目标等一系列攻击过程。
几十年来军方一直使用杀伤链模型来破坏攻击。它包括以下几个阶段:通过侦查发现或识别目标、获取目标位置、跟踪目标的移动、选择要对目标使用的武器、用选定的武器攻击目标、评估攻击的有效性。
Lockheed Martin创建了网络杀伤链框架,它包括攻击的七个有序阶段:侦查、武器化、交付、利用、安装、命令与控制、目标行动。与军事模型一样,它的目标是通过破坏攻击链条中的任意阶段来阻止攻击者。 - MITRE ATT&CK矩阵
MITRE ATT&CK矩阵由MITRE创建,是攻击者在各种攻击中使用的已识别的战术、技术和程序(TTP)的知识库。它是杀伤链模型的补充。然而与杀伤链模型不同的是,这些战术并不是一组有序的攻击。相反ATT&CK在矩阵中列出了TTP。此外攻击者不断修复他们的攻击方法。 - 威胁馈送
威胁馈送是与当前和潜在威胁相关的源源不断的原始数据流。在其原始形式下,可能很难提取有意义的数据。威胁情报视图从原始数据中提取有价值的情报。
通过将威胁馈送中的数据与进出互联网的数据进行比较,安全专家可以识别潜在的恶意流量。
虽然可以手动交叉检查来自威胁馈送的数据,跟踪传入和传出的流量日志,但是这可能非常繁琐。许多组织使用额外的工具来自动交叉检查这些数据。
一些安全组织售卖威胁情报,并自动响应和更新相关数据。 - 威胁搜索/威胁狩猎
威胁搜索是指在网络中主动搜索网络威胁的过程。
- 威胁情报是指收集有关潜在威胁的数据。
7、灾难恢复计划
(1)系统恢复和容错能力
- 保障可用性手段
能够进行“热交换”的冗余硬件;
容错技术:故障切换failover、负载均衡;
稳健的操作措施; - 冗余和容错
- 设备备份
冗余系统,典型的有主备模式;
集群,两个或两个以上加入集群并同时提供服务;
网格计算,另外一种的负载均衡的大规模并行计算方法,网格计算不适合需要保密的计算机,更适用于财务建模、天气建模、地震建模等项目; - 电源备份
冗余(双)电源供给;
UPS;
替代能源(如柴油发动机); - 驱动器和数据存储
- SAN和NAS:
SAN存储区域网络:SAN由专用网络上的专用块级存储组成,如磁带库、光盘驱动器、磁盘阵列,用ISCSI这样的协议对操作系统中显示为本地连接的设备,通过专用控制器或IP网络连接到多个系统的大型磁盘库;
NAS网络附加存储:允许网络服务器和网络客户分享他们的存储空间,level是文件级而不是块级,旨在简单的存储和提供文件,NAS还可用于为网络上多个系统提供存储。 - RAID廉价冗余磁盘列阵:
用于提高冗余和性能改进的技术,以逻辑的方式结合多个物理磁盘形成逻辑阵列。当数据保存时信息会写入到所有的驱动里。
RAID0:
在不使用奇偶效验信息的情况下,跨多个磁盘以条带方式写入文件。
所有磁盘都可以访问,提升读写速度,不提供冗余。
RAID1:
此级别将所有磁盘写入从一个磁盘复制到另一个磁盘,以创建两个相同的驱动器。
数据1:1镜像,提供冗余,成本高。
RAID2:
汉明纠错码,实际环境中用的较少。
RAID3 and RAID4:
RAID3提供字节级效验,RAID4提供块级效验。
需要三个或更多的驱动器才能实现,以条带化的方式写入文件,奇偶校验信息写在一个盘上,奇偶校验驱动器是阿克琉斯之踵,因为他可能成为瓶颈,更早的出现故障。
RAID5:
与RAID4相似,奇偶校验分散在每个盘,条带化,较为常用。
RAID6:
扩展了RAID5的功能,计算两组奇偶效验信息,RAID6性能较差。
RAID10和RAID01:
一般来说无论在速度还是冗余方便RAID10都认为在所有方便优于RAID01。
在RAID01中,第一组磁盘将所有驱动器上的数据条带化,这些驱动器再被镜像到另一组磁盘。 - 直接访问与顺序访问:
直接访问存储设备时,任何位置都可以立即到达,顺序访问存储设备时,需要穿越当前位置与目标位置之间的距离才能到达。
磁盘驱动器属于顺序访问。
多轨道磁带设备属于直接访问驱动器(DASD),将主要数据段的起始位置保存在磁带的特定位置和磁带驱动器的缓存中,允许磁带驱动器更迅速的访问。 - 冗余独立磁盘阵列(RAIT)
使用磁带驱动器,而非磁盘驱动器,保存大量数据时磁带驱动器成本更低,相对磁盘速度更慢。 - database shadowing(实时)
用于数据库管理系统在多点的记录更新,用于远程的完整数据库拷贝。
- SAN和NAS:
- 备份和恢复系统
- 备份数据包括关键系统文件和用户数据。
- 备份窗口:足够大选择全量备份,不足够大选择差异本分或增量备份。
- 备份涉及生产系统拷贝数据到远程介质中
至少三个备份磁盘:原站点(恢复单个故障系统),近站点(主站点遭受了普遍故障),远程站点。 - 异地站点
离主站点有段距离的安全位置。 - 电子传送/电子跳跃/电子保险库
通过网络定期远程传送批量备份数据,阶段性传送不是实时的。 - 远程日志/远程日记,是实时的传送交易日志。
- 存储库服务器
配置成类似存储设备,与实时更新相反,文件的变更使用增量和差异备份方式传递到数据库。 - 日志或交易记录
数据库管理系统使用技术提供交易的冗余。
- 人员编制弹性
- 避免关键人员的单点故障。
- 足够的人员配备水平。
- 适当的培训和教育。
- 轮岗培训。
- 设备备份
- 可信恢复
确保故障或操作中断不会破坏系统安全运行所需的机制和规程。 - 可信路径和故障安全机制
可信路径:为特权用户功能提供可信接口,提供确保使用该路径的通信不会被拦截或破坏的方法。
fail-safe 故障保障:发生故障时自动开启,关注生命或系统安全。
fail-secure 故障财务安全:发生故障时自动锁闭,发生故障后以可控的方式阻止访问。 - QOS服务质量
宽带、延迟时间、抖动、数据包丢失、干扰
(2)策略
- 制定恢复策略
恢复策略的选择必须符合组织需求。
成本效益分析(CBA):建立策略的初始费用、维护恢复策略解决方案的持续费用、方案定期测试的费用、通信相关的费用。 - 实施备份存储策略
恢复时间目标(RTO):在系统的不可用性严重影响到机构之前所允许消耗的最长时间。
恢复点目标(RPO):数据必须被恢复以便继续被处理的点。也就是所允许的最大数据损失量。
备份方法:全被、增量、差异(差分) - 恢复站点策略
- Dual data center双数据中心(冗余站点/镜像站点/立即恢复)
使用该战略使得应用不能接受宕机影响组织。
优势:停机时间非常短(分钟/秒级)、易于维护、无需恢复。缺点:费用较高。 - Hot sites热站(缺实时的数据)
优势:允许测试恢复策略,站点可在数小时内恢复(需要导入数据)。
缺点:外部热站存在软硬盘兼容问题。 - Warm sites温站(缺部分设备)
部分配置有一些设备,但不是真实的计算机的租聘设备,天级的恢复。 - Cold sites冷站(空壳子)
冷站就是一个壳或空数据中心,且地板上没有任何基础设施。
优势:低成本。
缺点:恢复时间长,周级的恢复,没有前期完全的测试工作。 - Mobile sites移动站点
是内置了适当电信装置和IT设备的可移动拖车或标准的集装箱,可以被激动拖放和安置在所需的备用场所,提供关键的应用服务,如电话交换功能等。
- Dual data center双数据中心(冗余站点/镜像站点/立即恢复)
- 处理协议
- 互惠协议:
组织间用来分享宕机风险;在灾难发生时,每个组织承诺承担彼此的数据和处理任务;
问题:组织承诺为他人保留空余处理能力或在其他组织宕机时降低处理能力、首先需要组织能够遵守这些协议、在行业内或竞争对手间很难找到合适的合作伙伴。 - 外包:
符合企业的成本效益需求:承担未知能力以及能够符合要求的风险,SAL协议能够表明在一段时间内提供服务,但不能真正保障在灾难时提供保障。
优点:按需服务,所有要求和执行责任都在第三方,较少的成本,提供更广的地域选择。
缺点:更多主动测试和评估来确认能力保持情况,协议争议使得厂家不能执行,如果部署私有系统将锁定厂商,如果频繁发生中断可能能力建设的费用更多。
- 互惠协议:
(3)流程
- 计划文档化
记录对应各种事件的恢复,文档应存储在所有的恢复设施里,文档对技术恢复操作要足够详尽,有相关技能的人首次执行应可以完成,每次测试计划根据需要进行更新。 - 响应
- 事件发生后通报给集中通信团队
集中的号码、帮助服务台、技术操作中心、物理安全人员、监控人员等。 - 响应计划
建立紧急联系名单
评估团队:首先通知、确定事件是否需要升级、首个升级团队(事件所有者,事件响应者)
建立通信渠道(内外部可替代)
不要忘记一些服务的不可用(快递、水电) - 高管应急管理团队
有组织中高级管理人员组成,不需要作初始响应,不需要管理日常运维,为组织的业务恢复负全责,事件发生后位于指挥中心响应和协助需要他们指导的问题的解决,关注战略响应、危机管理和危机领导(管理:响应、短期、流程、狭窄、战术层次;领导:期望、长期、原则、广泛关注、战略层次)。 - 应急管理团队
直接向指挥中心汇报,具有监控灾难恢复团队,制定恢复和复原流程的职责,向高管汇报事件的状态,制定支持恢复的决策。 - 灾难恢复团队
检索异地记载和异地存储的恢复信息,向异地站点报告,按优先级顺序执行恢复过程,按需向指挥中心汇报恢复情况,识别问题并汇报给管理团队获取解决方案,建立恢复团队支持7*24小时全天候班次,建立关键业务用户和人员联络,修复更换设备和必要的软件来恢复正常运营。 - 指挥中心
在紧急状态中用于通信和决策的中心,在灾难中用于响应灾难并配备响应文档以及其他需要的资源,也包括含处理财务问题的程序。 - 初始响应计划
组织具有多个位置,则需要为每个业务站点准备相关计划,识别站点中有哪些关键技术和业务,为期准备恰当的恢复策略,确定谁是决策者,如果不能回到建筑物内人们应该去哪,宣告灾难发生的流程,识别备份站点的位置、到达备份站点的差旅方式、备份站点的工位分配、备份站点附近的酒店/交通服务和后勤服务。 - 人事管理
很多计划的问题是人力资源的问题,灾难能够极大的影响到人员(除了响应自己需求外还需要关注响应团队家庭的情况),支持团队的水平将由灾难本身的性质明确界定,将行政支持作为恢复团队的一部分。
- 事件发生后通报给集中通信团队
- 沟通
- 通知员工
在紧急状况中由责任管理团队直接联系应急团队成员,描述组织如何联系剩余成员,建立应急信息线(让员工了解发生的灾难信息,如放员工工牌后面,贴冰箱等)。 - 利益相关者
员工及其家庭、承包商和商业伙伴、设施和现场经理、员工经理(HR、IT等)、高级管理人员、董事会、机构投资者和股东、保险代理人、供应商和销售商、客户、政府监管者和政治家、竞争对手、工会、社区、工业活动家团体、网民或博主、媒体代表。 - 如何去说
在灾难恢复过程中,所有员工向客户和厂商的报告需要时一致的,企业需要向所有利益相关者提供恢复状态的最新信息。(诚实、精准) - 安全专家需要建立问题报告和管理流程
- 通知员工
- 评估
在事件中需要确定事件的影响,非事件、事件(向管理层报告)、严重事件(向管理层报告) - 恢复
- Recovery恢复阶段,从主到备
- 计划中最后一部分是关于主环境复原以及迁移到正常运行状态(重建/还原 reconstitution/restoration – 从备到主)
- 组织的其他部分关注备用站点组织的复原
- 部分关注恢复到主设施生产环境所需做的事
- 复原主站点前需要联系法律部分和保险公司
- 迁移计划必须记录如何迁移的过程和操纵的细节
- 资产替换:与厂商协商提供设备构建或复原数据中心
- 提供培训
不管计划多好如果没人知道就不起作用
领导团队:知道危机管理,在灾难恢复中不是执行恢复而是领导组织回归正常
技术团队:知道执行恢复的程序,以及他们要去的后勤设施
雇员:撤离计划,将一部分BCP计划放到新人培训中 - 演练、评估和维护计划
- testing strategy测试策略
业务线和支持智能部门展示业务连续性测试成果,符合BIA和风险评估。
完成测试的深度与广度的描述。
员工、技术和设施的范畴。
内外依存度测试期望。
评价在开发测试策略中臆测的合理性。 - 测试策略包含测试目标和范围
DCP和BRP每年至少测试一次,或当重大变更发生时需要进行测试。
测试目标刚开始可以简单逐渐增加复杂度、参与级别、职能以及物理位置。
测试不要危及正常业务运行。
测试展示在模拟危机下各种管理和响应能力,逐渐增加更多的资源和参与者。
揭示不恰当之处,以便修正测试程序。
考虑偏离测试脚本插入意外事件,比如关键个人或服务的损失。
包括足量所有类型交易确保恢复设施的适当能力和功能。 - 测试策略包含测试计划
基于预定的测试目标和范围
包含测试计划评审程序
包含各种测试场景和方法的开发
测试计划:主测试计划应包含所有的测试目标、测试目标和方法的具体描述、所有测试相关方的角色定义、测试参与者的委派、确定测试决策制定者和后续计划、测试位置、测试升级条件和测试相关方联系信息
- testing strategy测试策略
(4)DR测试与维护
- 测试战略
测试范围和目标
通过测试验证RTO和RPO
测试策略:由高层制定,角色职责、频率范围和报告结果 - 业务恢复和灾难恢复测试
业务恢复,关注测试业务线的运行
灾难恢复,关注技术部分连续性的测试 - 检测清单测试(CBK、AIO)通读测试(OSG)
BCP/DRP拷贝分发给每个关键业务部门经理
请求他们评审适合他们部门的计划部分 - 桌面测试/结构化穿行演练测试
作为计划初始测试的工具
目标:确保来自所有领域的关键人员熟悉BCP/DRP,确保灾难响应组织有灾难恢复的能力
特点:会议室演练,低成本 - 排练演练/模拟演练
模拟演练的特点是模拟一个真实的灾难场景,比桌面演练包含的内容更多
参与者选择具体的事件场景应用在BCP中 - 功能性测试
主要是确定如果应用BCP程序,关键系统能否在备用处理站点恢复(DRP) - 并行测试
备用站点的运行结果和主站点的运行结果相比对 - 完全中断/全面测试(风险最高)
切换到备用站点运行 - 获得经验教训
在任何灾难恢复操作或其他安全事件结束时,组织应召开经验教训会议。经验教训流程旨在为参与事件响应的每个人提供一个机会来反思自己在过程中的工作。这是一个改进事件响应流程和技术,以更好应对未来安全危机的机会。 - 更新和维护计划
从项目到方案:
连续性计划方案是正在执行的流程
所有定义的任务都需要与时俱进与现有环境保持一致
必须要有年度要求
EMO应急管理组织(正式的管理层响应流程,现场覆盖现场支持和专业的知识,设计的领域包括:安全、系统、人力资源、组织沟通、合规性、风险和保险管理、组织应急计划)
团队职责(应对事件和紧急情况,确定事件紧急等级情况,与高层保持沟通,与员工和客户保持沟通,管理媒体、安全、系统、设施,协调与整合业务连续性规划师)
EOC组织应急行动中心(提供位置,不管EMO是否启动,提供必要的资源管理组织的恢复)
8、调查和道德
(1)取证调查
- 调查类型
行政调查、犯罪调查、民事调查、监管调查、电子发现 - 证据
- 数字取证
计算机取证、数字取证和网络取证、电子数据发现、网络取证和取证计算
基于有方法的、可验证的和可审计的程序和协议 - 取证指南
识别证据、搜集或获取证据、检查或分析证据、展示证据 - 可采纳的证据
- 证据的类型
- 可被法庭接受的证据
- 证据分类:
呈现方式的分类:书面的、口头的(证人证词)、计算机生成的、视觉或听觉的(犯罪过程中或犯罪刚结束抓捕的事件)
按影响力分类:最佳证据(原始合同)、辅助证据(口头证据、原始文件的复印件)、直接证据(证人的证词、基于证人五种感官收集的证据)、决定性证据、间接证据(证实中间事实,中间实时可推轮或认定另一事实)、确定性证据(支持型证据,用于帮助提供一个想法或观点)、观点证据(专家证人提出的教育观点、一般证人只能对事实做证)、传闻证据(法庭上陈述的口头或书面证据,是二手的) - 证据特征:
真实性和相关性,必须与调查结果有着适度且切合实际的关系完备性,证据必须呈现全部真相充分性和可信性,必须有充分的说服力来使一个讲道理的人相信调查的真实性,证据必须有力,不容易被质疑;
可靠性和准确性,必须与事实一致。如果只基于一个人的观点或原始文件的复印件,那么证据是不可靠; - 计算机日志:
前提是他们必须在业务的规范过程中收集的,业务记录特例;
大多数与计算机相关的文件被认为是传闻,即二手证据。
- 证据分类:
- 证据保管链监管链
指的是证据介质在最初的采集、标识,到运输、使用、中间的保管及最后的归档存放,都要有明确记录、职责归属,以确保原本的证据介质完全没有任何机会被污染或篡改;
在整个证据的生命周期中,都是关于证据的处理;
确保证据的真实性和完整性,借助hash和数字签名。 - 证据的收集和处理
访谈:
调查过程中最微妙的部分,就是证人和嫌疑犯的访谈;
访谈前必须要审视策略、通知管理层以及联系公司法律顾问;
访谈过程不要单独一人,如果可能,录下整个访谈过程作为佐证。 - 理解取证程序
- 取证原则
调查任何行动不得改变存储介质或数字装置中的数据;
访问数据的人员必须有资格这么做并有能力解释他们的行为;
适用于第三方审计并应用于流程的审计痕迹或其他记录应被生成和保护,并精准的记录每个调查步骤;
负责调查的人必须完全确保以上提到的程序被执行及遵守政府法律;
关于人员抓取数据的行为不得改变证据;
当有必要人员访问原始证据时,必须具有法律资格;
与数字证据的抓取、访问、存储或传输有关的行为必须小心的记录、保存并可用于审计;
当数字证据被某人持有时,这个人必须为证据所采取的行动付全部责任。 - 证据分析方式
介质分析:从信息介质中恢复信息或证据;
网络分析:从使用的网络日志和网络活动中分析或检测作为潜在的证据;
软件分析:分析和检测程序代码(包括源代码、编译代码和机器码)、利用解码和逆向工程技术、包括作者鉴定和内容分析等;
硬件/嵌入式设备分析:应包含移动设备的分析。
- 取证原则
- 数字取证
- 几种计算机犯罪
军事和情报攻击、商业攻击、财务攻击、恐怖攻击、积怨攻击、刺激攻击 - 犯罪场景
- MOM,动机、机会和方式
Motivation动机:谁,为什么
Opportunity机会:何时,何地
Means方式:犯罪成功需要的能力 - 计算机犯罪行为惯用手法
洛卡交换定律,定罪犯在获得一些东西的时候会遗留下一些东西
- MOM,动机、机会和方式
(2)道德规范
- ISC2道德规范
- 保护社会、公共利益与基础设施,赢得必要公众信心与信任
- 行事端正、诚实、公证、负责、守法
- 勤奋尽责、专业胜任
- 推动行业发展、维护职业声誉
- 组织道德规范
几乎每个组织都有自己的道德规范,这些规范会发布给员工,以帮助指导他们的日常工作。
在道德规范作为单独声明发布的情况,它通常是高等次的,旨在提供一般指导,而不是针对特定情况。