第一章
智能的类型
人工智能、人脑智能、集成智能之间的关系:人工智能和人脑智能之间有交叉就是集成智能
智能的概念:
智能是一个涵盖广泛且多层面的概念,涵盖了认知、情感、社会互动等多种能力和属性。在不同的领域和应用场景下,智能的具体含义可能会有所不同,但其核心始终围绕着思维和解决问题的能力。
智能的辨析
数据、信息、知识、智能之间的辨析:
数据是描述事物属性或状况的原始符号。数据本身并没有经过加工或解释,只是一组离散的观测值或事实。
信息是对数据进行处理、组织和解释后产生的有意义的结果。信息提供了对数据的理解和关联,使其具有特定的含义和价值。
知识是对信息进行理解、解释和应用的结果,是基于经验、认知和推理所获得的一种智力活动。
智能是知识的高级应用形态,同时也是抽象层级最高的信息。
商务智能系统的功能
商务智能系统作为一种辅助决策的工具,为决策者提供信息、知识支持,辅助决策者改善决策水平。商务智能系统的主要功能如下:数据集成、信息呈现、运营分析、战略决策支持
第二章
决策的科学性:依靠正确的理论、方法和程序;信息的收集、加工、分析;数学模型的应用;计算机和网络的应用
决策的艺术性:形象思维、创造性思维;沟通艺术、民主化、谈判艺术、授权艺术;寻求支持(同事、上下级、专家;)决策风格、对风险的态度;果断性决策实施中的动员、推进、释疑;
智能决策是科学与艺术集合,是人工智能与人脑智能的协调统一
- 决策有其科学的一面,也有其艺术的一面
- 成功的决策应当是一种合理运用决策科学的艺术将其科学性和艺术性有机结合的产物
- 任何片面地夸大决策的科学性或艺术性的做法都是错误的
决策的分类
按决策环境不同
非智能化环境:确定型决策、风险型决策、不定型决策
智能环境:竞争型决策
确定型决策:采取一种方案时,只有一种后果(自然状态变量只有一种取值)。(目标函数值大小)
风险型决策:采取一种方案时,有多种可能的后果,自然状态变量取值的概率可以估计(自然状态变量取值不唯一)。(风险偏好和概率信息)
不定型决策:采取一种方案时,有多种可能的后果,但取值不唯一的自然状态变量的概率值不可估计(可能源于信息不充分等)。
竞争型决策:在决策系统中存在竞争对手时的决策,(竞争对手的行为不受决策者控制,无统计规律可寻。)
按决策结构划分
不良结构问题:非结构化决策、半结构化决策
结构良好问题:结构化决策
非结构化决策:首次发生,无章可循,非程序化。主观行为影响大。
半结构化决策:介于非结构与结构化决策之间
结构化决策:重复出现的,常规或例行的决策问题。
决策步骤
决策是一个过程,而不是一瞬间的简单的选择行为。
正确的决策必须遵循一定步骤
狭义的决策过程不包括后两个决策步骤,而广义的决策过程包含了决策的制定和实施的全过程。
这里只是给出了一个决策的逻辑序列,它并不能代表实际决策活动的过程。
真正的决策行为可能频繁出现回溯和跃进现象,因而决策过程可能不是平滑的。
第四章
第五章
组织目标层次建立的方式:
- 自上而下整体性强,但容易脱离实际
- 自下而上切合实际,但整体性较弱
- 两者结合前两个有点,工作量大
目标确立的经验:ABCDE方法:
第一步:写下全部想法(ALL)
第二步:归纳成简洁的含义(Basic)
第三步:对目标集进行分类(Classify)
第四步:澄清每个目标的含义(Declare)
第五步:对目标进行测试(Exam)
第六章
备选方案的产生方法
一、由内向外
目标导向法:自己生产备选方案
重要目标导向法
- 按照重要性排序,依次满足
- 一般能够满足两个重要目标就不错了
目标限制修正法
- 质疑、突破目标的限制条件(码头劳工案例,三地会议案例)
目标——手段链法
- 问一问“为什么”会将你从手段带向目标;
- 问一问“怎么做”则会将你从目标带向手段
二、由外向内
经验借鉴法:利用他人产生备选方案
- 选择效果的正态分布,80%稳妥,10%很差,10%很好
- 80%-经验:风险较小,但是难有实质改变
- 10%很差,10%很好-创新:风险较大
- 在询问他人之前,先进行独立思考,防止陷入他人的思维定式
两个均衡:
- 寻找传统和创新的均衡点
- 寻找他人经验和自己独立思考的均衡点
- 专家咨询法、头脑风暴法等;ESS
三、实验法
- 都是对现实问题的映射和模拟
- 实验一小范围真实环境:小范围试点:小岗村试点;疫情逐步放开
- 仿真-虚拟环境:疫情期间兰州大学预测模型
- 优点:失误代价小
- 缺点:费用昂贵;易脱离实际,理想化
设计备选方案的经验
迟疑不决 v.s.延缓时间
坏处:错失良机
好处:减少不确定性
权宜之计:做出部分承诺
尺度:心理拖沓还是利弊权衡
最优方案的相对性(满意代替最优)
方案设计的技巧
三种备选方案的类型
过程备选方案
- 过程方案在有利益冲突的情况下可以确保次策的公正性,因此有助于保持并培养长期关系。
- 过程本身既创造了基本方案,也做出了选择。
- 其他常见的过程方案包括:选举、有约束力的仲裁、标准化考试成绩、密封投标、拍卖
双赢备选方案
- 有时候设计方案不是最困难的,问题是你需要征得他人的同意。
信息收集备选方案
- 把所有的不确定性都列举出来,各个击破
- 考虑备选方案的可靠性和成本
什么时候停止寻找新方案
持续性思考
- 过早停止思考结果是,进入取舍阶段的时候方案缺点也会暴露出来
- 让潜意识发挥作用
- 先提出备选方案,再进行评估
什么时候停止寻找
- 是否已经按照之前的步骤想备选方案
- 现有方案是否基本满意
- 现有方案是否都很类似
第七章
结果描述的重要性
方案结果描述的重要性:
决策之前,要确保理解备选方案的结果将会是什么
适当正确、完整、精确地描述结果
如何描述方案结果--构建结果表。
- 想象未来的场景
- 对每一个方案自由描述
- 排除明显不利方案
- 形成结果表
第八章
权衡之难
难点不在于多个方案数量之多,而在于每个目标都有自己的比较基准
决策难度$\approx $备选方案的数量x目标的数量(维度上去了)
权衡的难点在于多目标决策,容易顾此失彼
多目标之间的平衡
优劣关系法
- 找出并排除劣势方案
- 原则:只要方案A在某些目标优于B,其他目标不比方案B差,就可以排除B(明显占优)
- 实际占优:方案A在一个目标优于B,其他目标都比方案B差,大概率可以排除A
等价置换法
- 基本的原则:如果对于某一目标所有方案都是相等的,那么在这些方案中进行选择时可以忽略这个目标。
- 等价置换增加了一个方案在一个目标上的价值,而等量地降低了这个方案在另一个目标上的价值。
- 等价置换法的难点:确定不同结果的相对值。
- 等价置换法的最大作用在于:它迫使你以一种理性的、可测量的方法考虑每一次权衡的价值,而这正是进行明智选择的密诀所在。
- 优劣关系可以排除方案,等价置换法可以排除一些目标用等级置换法排除一些目标后(降维),再用优劣关系法排除方案,就简化了权衡的难度。
第九章
不确定性
将好的结局和精明的决策区分开来
- 好的决策应该通过决策过程的质量来判断,而不是通过结果来判断
- 只以成败论英雄不可取
如何应对不确定性:风险剖图简化不确定性。
- 剥离不确定因素:找到关键因素,忽略次要因素
风险剖图
- 关键的不确定性是什么?
- 这些不确定性的可能结果是什么?
- 每种可能结果发生的概率怎样?
- 每种结果最终会导致什么结局?
第十章
人工智能辅助决策
人工智能的层次:
人机交互界面层
- 早期的手工作业;作业控制语言及交互命令语言;图形用户界面;网络用户界面;
- 问答式交互、菜单选择、填表技术、命令语言、直接操纵、语音交互、图像交互、行为交互
知识层
- 四个维度:事实性知识、概念性知识、程序性知识、元认知知识
信息资源层
- 完成对业务数据的收集和处理
接口层
- 实现其他商务软件对商务智能系统的访问
系统软硬件层
- 操作系统
oltp和olap的区别
OLTP(在线事务处理) 是一种用于处理高频事务的数据库系统,主要针对实时数据的录入、修改、查询等操作。它广泛应用于需要快速响应和高并发的场景,比如电子商务订单处理、银行交易系统等。
OLAP(在线分析处理) 是一种用于支持复杂查询和多维分析的数据系统,主要用于数据分析和决策支持。它不直接参与事务处理,而是对历史数据进行汇总、分析、挖掘。
维度:
- 维度是描述与业务主题相关的一组属性,单个属性或属性集合可以构成一个维。比如:学历、民族、性别等都是维度。
维的层次维的层次:
- 一个维往往可以具有多个层次,例如时间维度分为年、季度、月和日等层次,地区维可以是国家、地区、省、市等层次。这里的层次表示数据细化程度,对应概念分层。
常见操作:
切片和切块
- 选定多维数组的1维成员做数据分割的操作称为该维上的一个切片
- 把多维数组中选定一个三维子集的操作视为切块。
- 钻取
- 旋转
维度 | OLTP | OLAP |
---|---|---|
用途 | 用于日常事务处理(如订单处理、用户管理)。 | 用于数据分析和决策支持。 |
操作类型 | 插入、更新、删除等事务性操作。 | 查询操作,通常是复杂的、多表联合的分析性查询。 |
数据量 | 数据量相对较小,但操作频繁。 | 数据量大,数据操作少,主要用于读取分析。 |
性能要求 | 响应速度快,支持高并发事务处理。 | 对响应时间要求较低,但要求查询效率高。 |
数据模型 | 规范化模型(通常是第三范式),以减少冗余。 | 非规范化模型(如星型或雪花模型),便于查询优化。 |
数据源 | 直接来自用户输入或应用系统。 | 来自多个系统的汇总数据(ETL 过程之后)。 |
存储结构 | 行存储,优化写入性能。 | 列存储,优化读取性能。 |
示例场景 | 银行账户交易、在线购物订单。 | 销售趋势分析、市场预测、客户行为分析。 |
数据库和数据仓库的区别
维度 | 数据库 | 数据仓库 |
---|---|---|
定义 | 用于存储和管理实时事务性数据的系统。 | 用于存储大量历史数据以支持分析和决策的系统。 |
目的 | 支持日常操作(事务处理)。 | 支持数据分析和业务决策。 |
数据类型 | 当前数据(实时性强)。 | 历史数据(长期存储,非实时)。 |
设计模型 | 以操作为中心,采用规范化设计(如第三范式)。 | 以分析为中心,采用维度建模(如星型、雪花模型)。 |
更新频率 | 数据实时更新,支持高并发事务处理。 | 数据定期批量加载(通过 ETL 过程)。 |
查询类型 | 简单查询,支持 CRUD 操作。 | 复杂查询,主要是聚合分析、趋势分析和多维度查询。 |
数据量 | 相对较小,支持高频操作。 | 数据量大,主要用于读取分析。 |
性能优化 | 优化事务处理性能(如索引、事务锁)。 | 优化查询性能(如分区、索引、列存储)。 |
技术工具 | 传统数据库如 MySQL、PostgreSQL、Oracle。 | 数据仓库工具如 Amazon Redshift、Snowflake、Hive。 |
示例场景 | 电子商务平台订单数据管理、银行系统账户数据管理。 | 企业销售数据分析、用户行为数据分析。 |
ROLAP 使用关系数据库管理系统或扩充关系数据库管理系统存储和管理数据仓库,以关系表存储多维数据,有较强的可伸缩性。
ROLAP关系在线分析处理
MOLAP多维在线分析处理
HOLAP混合在线分析处理
数据仓库:一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理者的决策过程。
数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库“,而不叫“工厂”的原因。
数据仓库基本内容:
数据源
- 这些数据的来源称为数据仓库的数据源
ELT
ETL是将业务系统中的数据经过抽取(Extract)、清洗转换(Transform)和加载(Load)到数据仓库的过程
数据清洗
- 缺省值
- 异常值:测定值中与平均值偏差超过3倍标准的值
- 不一致值
- 目的是将企业中的分散、凌乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。
元数据
- 就是关于数据仓库中数据的数据。广义上讲在数据仓库中,元数据描述了数据仓库内数据的结构和建立方法的数据。
数据集市
- 数据集市是为企业特定部门的决策支持而组织起来的一批数据和业务规划。
- 数据集市不是数据仓库
- 数据集市并非小的数据仓库
- 多个数据集市集合并不构成数据仓库
数据仓库的特征:面向主题、集成、非易失、时变性
- 主题是一个抽象概念、简单地说就是与业务相关的数据的类别,每个主题基本对应一个宏观的分析领域。数据仓库被设计成辅助人们分析数据的工具。
- 数据仓库把不同的数据源的数据汇总到一起,而集成是指把不同类型的数据源的数据进行整合,按照统一的形式进行集成。
- 数据仓库中的数据在进行装载时是以静态快照的格式进行的,当产生后继变化时,一个新的快照记录就会写入数据仓库。
- 任何情况下,记录都包含某种形式的时间标志用以说明数据在哪一时间时准确的
- 粒度:粒度问题遍布于数据仓库体系结构的各个部分。粒度是指数据的细节或汇总程度,细节程度越高,粒度级别越低。
数据挖掘的六个过程
第十一章
分类算法:
- 支持向量机
- 决策树
- 贝叶斯决策
- 人工神经网络
- K-最近邻分类、遗传算法、粗糙集理论、模糊理论等
聚类就是把整个数据分成不同的组,并使组与组之间的差距尽可大,组内数据的差异尽可能小。
簇(Cluster):一个数据对象的集合
聚类分析:
- 把一个给定的数据对象集合分成不同的簇
- 一个好的聚类方法要能产生高质量的聚类结果一簇,这些簇要具
备以下两个特点:高的簇内相似性、低的簇间相似性
与分类的不同:
- 与分类不同,在开始聚集之前用户并不知道要把数据分成几组,也不知分组的具体标准,聚类分析时数据集合的特征是未知的。
- 聚类根据一定的聚类规则,将具有某种相同特征的数据聚在一起也称为无监督学习。分类用户则知道数据可分为几类,将要处理的数据按照分类分入不同的类别,也称为有监督学习。
聚类算法:
- K-means
- K-modes
- 层次聚类
- 密度聚类
若两个或多个变量的取值之间存在某种规律性,就称为关联。
关联规则是寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。
关联分析即利用关联规则进行数据挖掘。
关联分析算法:
- Apriori算法
- FP增长算法
回归分析:确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。--分析某些原因能够对目标造成“多大程度”的影响。
- 按照涉及的变量的多少,分为一元回归和多元回归分析;
- 按照因变量的多少,可分为简单回归分析和多重回归分析;
- 按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
相关分析与回归分析的联系
- 相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。
- 相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。
- 只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回归”
- 与此同时,相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。
相关分析与回归分析的区别:
- 相关分析中涉及的变量不存在自变量和因变量的划分问题,变量之间的关系是对等的;而在回归分析中,则必须根据研究对象的性质和研究分析的目的,对变量进行自变量和因变量的划分。因此,在回归分析中,变量之间的关系是不对等的。
- 在相关分析中所有的变量都必须是随机变量;而在回归分析中,自变量是确定的,因变量才是随机的,即将自变量的给定值代入回归方程后,所得到的因变量的估计值不是唯一确定的,而会表现随机波动性。
- 相关分析主要是通过一个指标即相关系数来反映变量之间相关程度的大小,由于变量之间是对等的,因此相关系数是唯一确定的。而在回归分析中,对于互为因果的两个变量(如人的身高与体重,商品的价格与需求量),则有可能存在多个回归方程