基础知识
1-数学
数学是学不完的,也没有几个人能像博士一样扎实地学好数学基础,入门人工智能领域,其实只需要掌握必要的基础知识就好。ai的数学基础最主要是高等数学、线性代数、概率论与数理统计三门课程,这三门课程是本科必修的。这里整理了一个简易的数学入门文章:
数学基础:高等数学
l
3-编程
入门人工智能领域,首推python这门编程语言。
1) python安装:
python安装包,我推荐下载anaconda,anaconda是一个用于科学计算的python发行版,支持 linux, mac, windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。
下载地址:
l
中文笔记:
l#_label0
公式推导:
l
l
中文文档(0.19):
l
中文文档(版本0.3):
l
课程笔记:
l
课程笔记:
l
2. 3分钟了解今日头条推荐系统原理
l
3.facebook是如何为十亿人推荐好友的
l
风控模型(评分卡模型)
1-评分卡模型简介
评分卡模型时在银行、互金等公司与借贷相关业务中最常见也是最重要的模型之一。简而言之它的作用就是对客户进行打分,来对客户是否优质进行评判。
根据评分卡模型应用的业务阶段不用,评分卡模型主要分为三大类:a卡(application score card)申请评分卡、b卡(behavior score card)行为评分卡、c卡(collection score card)催收评分卡。其中申请评分卡用于贷前,行为评分卡用于贷中,催收评分卡用于贷后,这三种评分卡在我们的信贷业务的整个生命周期都至关重要。
2-推荐书籍
《信用风险评分卡研究——基于sas的开发与实施》
3-评分卡模型建模过程
样本选取
确定训练样本、测试样本的观察窗(特征的时间跨度)与表现窗(标签的时间跨度),且样本的标签定义是什么?一般情况下风险评分卡的标签都是考虑客户某一段时间内的延滞情况。
特征准备
原始特征、衍生变量
数据清洗
根据业务需求对缺失值或异常值等进行处理
特征筛选
根据特征的iv值(特征对模型的贡献度)、psi(特征的稳定性)来进行特征筛选,iv值越大越好(但是一个特征的iv值超过一定阈值可能要考虑是否用到未来数据),psi越小越好(一般建模时取特征的psi小于等于0.01)
对特征进行woe转换
即对特征进行分箱操作,注意在进行woe转换时要注重特征的可解释性
建立模型
在建立模型过程中可根据模型和变量的统计量判断模型中包含和不包含每个变量时的模型质量来进行变量的二次筛选。
评分指标
评分卡模型一般关注的指标是ks值(衡量的是好坏样本累计分部之间的差值)、模型的psi(即模型整体的稳定性)、auc值等。
知识图谱
1-知识图谱是什么
知识图谱是一种结构化数据的处理方法,它涉及知识的提取、表示、存储、检索等一系列技术。从渊源上讲,它是知识表示与推理、数据库、信息检索、自然语言处理等多种技术发展的融合。
2-推荐资料
为什么需要知识图谱?什么是知识图谱?——kg的前世今生
lhmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io
3-主要内容
3.1 知识提取
构建kg首先需要解决的是数据,知识提取是要解决结构化数据生成的问题。我们可以用自然语言处理的方法,也可以利用规则。
3.1.1 使用规则
正则表达式
正则表达式(regular expression, regex)是字符串处 理的基本功。数据爬取、数据清洗、实体提取、关系提取,都离不开regex。
推荐资料入门:
精通正则表达式
regexper 可视化:例 [a-z]*(\d{4}(\d+))
pythex 在线测试正则表达式:
l
中文分词和词性标注
分词也是后续所有处理的基础,词性(part of speech, pos)就是中学大家学过的动词、名词、形容词等等的词的分类。一般的分词工具都会有词性标注的选项。
推荐资料入门:
jieba 中文分词包
l
seq2seq
使用seq2seq端到端的模型,主要借鉴文本摘要的思想,将三元组看成是非结构化文本的摘要,从而进行抽取,其中还涉及attention机制。
推荐资料:
seq2seq详解
l
pyyaml: 是python里的yaml处理库
/developer/python/
2.orientdb:/orientdb/
d.rdf数据库stardog
stardog官网:/
3.4 知识检索
需要熟悉常见的检索技术
elasticsearch教程:
/elasticsearch-101/
4-相关术语及技术路线
本体:
/question/19558514
rdf:
/p/32389370
4.2 开发语言
python或java
4.3 图数据库技术
neo4j:/
allegrograph:/agraph/allegrograph/
4.4 可视化技术
d3.js:/fxsjy/jieba
hanlp:/hankcs/hanlp
5-项目实战
基于知识图谱的问答:
/kangzhun/knowledgegraph-qa-service
agriculture_knowledgegraph:
/qq547276542/agriculture_knowledgegraph
贡献平台
由知名开源平台,ai技术平台以及领域专家:apachecn,datawhale,ai有道和黄海广博士联合整理贡献:
1.apachecn:片刻,李翔宇,飞龙,王翔
2.datawhale:范晶晶,马晶敏,李碧涵,李福,光城,居居,康兵兵,郑家豪
3.ai有道:红色石头
4.黄海广博士
链接:f8rb0/article/details/89702473