- 机器学习概论
- 特征工程
- 感知机
- k近邻
- 朴素贝叶斯
- 线性模型
- 决策树
- 支持向量机
- liblinear
- 集成学习
- 降维
- EM算法
- 概率图模型
- HMM隐马尔科夫模型
- CRF条件随机场
- 聚类
- 主题模型
- 知识点
- 机器学习算法总结
- 深度学习概论
- ANN人工神经网络
- Hopfield神经网络
- 知识点
- CNN卷积神经网络
- RNN循环神经网络
- LNN液态神经网络Liquid Neural Network
- BNN贝叶斯神经网络
- GNN图神经网络
- 深度生成模型
- 深度生成模型概述
- GAN生成对抗网络
- VAE变分自编码器
- Flow-based Models流模型
- Diffusion Models扩散模型
- Few-shot Learning小样本学习
- 强化学习学习路径
- 强化学习基础概念
- 强化学习算法
- 深度强化学习
- 函数近似和深度网络
- 深度强化学习概述
- 基于值的深度强化学习
- DQN
- 基于策略的深度强化学习
- Actor-Critic
- A3C
- A2C
- 基于信赖域的深度强化学习
- SAC: Soft Actor-Critic
- 高级主题
- 强化学习前景
- 基于模型的强化学习
- 稀疏奖励Sparse Reward
- 混合动作空间Hybrid Action Space
- MCTS+RL
- MCTS蒙特卡洛树搜索
- MCTS+RL通用框架
- 适用于离散连续动作空间的MCTS+RL框架
- 模仿学习
- Sim2Real从仿真器到现实环境的迁移
- MARL多智能体强化学习
- HARL异质多智能体强化学习(Heterogeneous-Agent Reinforcement Learning)
- Offline RL离线强化学习
- Transformer+RL
- 决策大模型
- MMRL多模态强化学习
- LLM+RL
- DiffusionModel+RL
- 仿真环境
- OpenAI: Gym
- OpenAI: Mujoco
- SMAC星际争霸 PySC2 —— 星际争霸II学习环境
- OpenDILab: GoBigger多智能体仿真平台
- Unity3D: ml-agents 简言之:行为树是适合解决复杂AI的解决方案。 对于Unity用户,Unity商店现在已经有一个比较完善的行为树设计(Behavior Designer)插件可供购买使用。
- 场景应用
- 业界应用
- DeepMind
- AlphaGo
- AlphaGo-Zero: Mastering the Game of Go without Human Knowledge Nature2017
- AlphaStar: Grandmaster level in StarCraft II using multi-agent reinforcement learning Nature2019
- AlphaZero
- MuZero
- AlphaFold
- AlphaCode
- AlphaTensor: Discovering faster matrix multiplication algorithms with reinforcement learning Nature2022
- Agent57 2020
- DeepNash
- Grandmaster-Level Chess Without Search Arxiv202402
- OpenAI
- Emergence of grounded compositional language in multi agent populations 2017 在模拟游戏环境里从无到有进化出一种语言 OpenAI在2017年先完成了具身智能演化出语言的原理模型之后才立项GPT,Emergence of grounded compositional language in multi agent populations.现在多模态模型的关键要素在文章里都有了,而之前OpenAI还在打游戏。而且这还只是对外公开的部分,谁知道内部发生了啥,马斯克骂骂咧咧的退出了。
- 机械手玩魔方: Solving Rubik’s Cube with a robot hand 201910
- OpenAI Five: Dota 2 with Large Scale Deep Reinforcement Learning 201904
- 捉迷藏Multi-Agent Hide and Seek: Emergent tool use from multi-agent interaction Arxiv2020
- 腾讯
- 王者荣耀Honor of Kings
- 玩魔方,腾讯与港中大相关研究:https://arxiv.org/pdf/1907.11388.pdf
- InspirAI启元世界
- DeepMind
- Anaconda
- 模型训练云服务器平台
- 本地IDE远程连接服务器
- TensorFlow
- PyTorch
- 强化学习训练框架
- 强化学习开源框架整理
- 清华:天授
- 百度:PARL 用PaddlePaddle实现了所有算法,用Pytorch实现了部分算法
- Ray分布式计算框架
- RLlib分布式强化学习系统
- 大模型训练框架
- 超算集群
- ResNet 有捷径的(resnet的跳跃连接)
- InceptionNet 多岔路的(inception的多分支)
- DenseNet 通往多个地点的捷径的(densenet的密集连接)
- YOLO
- 图像标注工具
- Vision Transformer
- Swin Transformer
- 自然语言处理概论
- 自然语言
- 语言模型和中文分词
- TF-IDF词频-逆文档频率
- word2vec
- AttentionMechanism注意力机制
- [Target Attention机制]
- Self Attention机制
- [Multi Head Self Attention机制]
- Seq2Seq模型和Attention机制
- Self-Attention和Transformer
- BERT
- Foundation Models基础模型
- Scaling Law
- RLHF基于人工反馈的强化学习方法
- LoRA大语言模型的低秩适应
- Prompt Learning
- Emergence涌现现象
- 自己运行大语言模型
- 自己训练大语言模型
- 业界应用
- OpenAI
- 可能大家对于绘画了解的比较多的是midjourney与stable diffusion,实际上这两个产品的基本技术都来源于DALL-E系列,那里的OpenAI还是Open的,它的论文还有足够的内容让我们理解,它里边有什么。于是大家根据它的2021年的DALL-E及CLIP这两个论文,搞出来midjourney,而stable diffusion也是在这个基础上的一个开源方案。
- [DALL·E1 2021]
- [CLIP 2021]
- [DALL-E2 2022]
- [DALL-E3 2023] 已融合进GPT4中
- Point-E 202212 文本生成3D点云模型
- GTP系列介绍
- GPT前身Unsupervised Sentiment Neuron
- GPT1
- GPT2
- GPT3 语言生成模型 根据Lambda官网数据,微软为OpenAI设计了一个包含10000块Nvidia V100 GPU的分布式集群进行GPT-3的模型训练,由于模型参数量较大(共1750亿参数),训练完成共耗费30天,消耗总算力为 3640PF-days。以Nvidia Tesla V100的Lambda GPU实例定价为1.50 美元/小时测算,GPT-3的完整训练成本将达到466万美元/次。
- Codex
- GPT-3.5
- instructGPT
- ChatGPT 聊天机器人
- 202303 GPT-4 输入图/文,输出文
- Meta
- Stability.ai
- Stable Diffusion开源
- Google/DeepMind
- LaMDA I/O大会202105
- PaLM 202204 5400亿参数
- LaMDA-2 I/O大会202205
- T5
- Bard聊天机器人 202302 对标OpenAI的ChatGPT
- ReAct是来自谷歌论文《Synergizing Reasoning and Acting in Language Models》中的一个方法,它是2022年12月发表的。这是一种reason+Act(ReAct)的方式,让大模型的行动和推理一起协同,提高大模型解决问题的能力。也就是让模型在访问外部知识的情况下和自己的模型能力结合。其实这就是Bing中的ChatGPT的运行方式!这个简单的方法可以让模型有更强的能力。而它的实现其实只需要简单的几行代码即可。因此,在前面的低成本+浏览器运行的基础上,加上ReAct改造,几乎可以得到一个与ChatGPT类似或者甚至更好的对话模型!
- Agents Thinking Fast and Slow: A Talker-Reasoner Architecture ArXiv202410
- Large Language Models can Learn Rules Arxiv202412 消除幻觉,让 LLMs 学会规则库和多步推理,代码开源
- MiscroSoft
- Copilot MiscroSoft和OpenAI联合打造的AI编程工具,基于OpenAI的大模型Codex,基于GPT-3框架进行训练
- Kosmos-1 20230227发布,第二种才是真正的多模态LLM,才是GPT-4的魅力,他的原理目前OpenAI没有公布细节,但是大家可以参考微软在2月27日发布的Kosmos-1的论文(想一想,为什么偏偏是OpenAI的深度合作伙伴发了这篇论文)。
- DeepSeek幻方量化对冲基金
- DeepSeek V3 202412 一家中国量化基金公司年底发布了最强开源LLM:DeepSeek V3
- 智谱AI
- ChatGLM 近日,由清华技术成果转化的公司智谱AI开源了GLM系列模型的新成员——中英双语对话模型ChatGLM-6B,支持在单张消费级显卡上进行推理使用。这是继此前开源GLM-130B千亿基座模型之后,智谱AI再次推出大模型方向的研究成果。与此同时,基于千亿基座模型的ChatGLM也同期推出,初具问答和对话功能 ChatGLM:千亿基座的对话模型启动内测,单卡版模型已全面开源
- Together
- OpenChatKit ChatGPT的开源平替来了,源代码、模型权重和训练数据集全部公开。由前OpenAI研究员共同打造。如何看待 Together 推出的开源聊天大模型 OpenChatKit?能否替代 ChatGPT?,ChatGPT开源平替来了,开箱即用!前OpenAI团队打造
- 阿里达摩院
- 中文GPT3 对标GPT-3的开源项目
- 元语智能
- [PromptCLUE1.0 202210]
- [PromptCLUE1.5 202211]
- [ChatYuan 202212]
- 百度
- BlinkDL
- ChatRWKV 202208 对标ChatGPT的开源项目,基于RNN架构
- Alpaca 斯坦福大学
- Alpaca 近日,斯坦福基于 Meta 的 LLaMA 7B 模型微调出一个新模型 Alpaca。该研究让 OpenAI 的 text-davinci-003 模型以 self-instruct 方式生成 52K 指令遵循(instruction-following)样本,以此作为Alpaca的训练数据。研究团队已将训练数据、生成训练数据的代码和超参数开源,后续还将发布模型权重和训练代码。 斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现
- HPC-AI Tech潞晨科技
- ColossalChat 202302 对标ChatGPT的开源项目。ColossalChat开源了第一个完整的RLHF pipeline,斯坦福Alpaca没有做RLHF
- [Open-Sora 202406]
- 复旦大学自然语言处理实验室邱锡鹏团队
- MOSS 202302 对标ChatGPT,已开源
- 百川智能
- Salesforce Research
- [BLIP-2图生文] 能力堪比ChatGPT
- OpenAI
- 业界应用
- OpenAI
- DeepMind
- World Labs李飞飞创立
- [Large World Model大世界模型 202412]
- AutoML介绍
- 自动数据清理AutoClean
- 自动特征工程AutoFE
- 超参数优化HPO
- 元学习MetaLearning
- 神经网络架构搜索NAS
- 推荐系统概述
- 基础知识
- 协同过滤
- 用户画像
- 进阶知识
- 排序模型概述
- 召回模型概述
- 机器学习
- Graph Embedding
- 深度学习
- DNN深化
- 特征交叉
- 多任务学习
- MMoE: Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts KDD2018(见业界应用)
- [ESMM: Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate SIGIR2018(见业界应用)
- 用户行为序列建模
- 用户行为序列建模
- 短序列
- pooling
- YouTubeDNN: Deep Neural Networks for YouTube Recommendations RecSys2016(见业界应用)
- 共享权重神经网络+池化
- RNN
- 基于Attention机制的用户行为序列建模
- 基于Target-Attention机制的用户行为序列建模
- DIN: Deep Interest Network for Click-Through Rate Prediction KDD2018(见业界应用)
- DIEN: Deep Interest Evolution Network for Click-Through Rate Prediction(见业界应用)
- DSIN: Deep Session Interest Network for Click-Through Rate Prediction IJCAI2019(见业界应用)
- 基于Self-Attention机制的用户行为序列建模
- 基于Transformer中的Self-Attention的行为序列建模
- 基于Target-Attention机制的用户行为序列建模
- pooling
- 长序列
- MIMN: Practice on Long Sequential User Behavior Modeling for Click-Through Rate Prediction
- SIM: Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction
- 用户多兴趣建模
- MIND: Multi-Interest Network with Dynamic Routing for Recommendation at Tmall
- DMIN: Deep Multi-Interest Network for Click-through Rate Prediction
- 图卷积网络
- 强化学习
- 业界应用
- YouTube
- Alibaba
- TDM: Learning Tree-based Deep Model for Recommender Systems KDD2018
- DIN: Deep Interest Network for Click-Through Rate Prediction KDD2018
- DIEN: Deep Interest Evolution Network for Click-Through Rate Prediction 也评Deep Interest Evolution Network 石塔西
- DSIN: Deep Session Interest Network for Click-Through Rate Prediction IJCAI2019
- ESMM: Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate SIGIR2018
- 传感器
- 感知
- 导航
- 轨迹预测
- 决策
- 规划
- 路径规划
- 轨迹规划
- 基于LLM大语言模型的规划
- Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language arXiv2022 Google
- Towards Helpful Robots: Grounding Language in Robotic Affordances Google2022
- Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon Reasoning arXiv2022 Google
- Inner Monologue: Embodied Reasoning through Planning with Language Models arXiv2022 Google
- Interactive Language: Talking to Robots in Real Time arXiv2022 Google
- ChatGPT for Robotics: Design Principles and Model Abilities Microsoft2023
- 制导
- 控制
- 传统控制
- 基于强化学习的控制
- 基于LLM大语言模型的控制
- Code as Policies: Language Model Programs for Embodied Control arXiv2022 Google
- RT-1: Robotics Transformer for Real-World Control at Scale arXiv2022 Google
- Performer MPC: Learning Model Predictive Controllers with Real-Time Attention for Real-World Navigation Google2022
- ChatGPT for Robotics: Design Principles and Model Abilities MicroSoft2023 ***
- PaLM-E: An Embodied Multimodal Language Model arXiv2023 Google ***
- Towards a Robotics Foundation Model ML-Collective协会2023
- 动力系统
- 仿真
- 动力学模型
- 三自由度动力学与运动学模型
- 六自由度动力学与运动学模型
- 空气动力学
- 传感器与武器
- 雷达
- 空空导弹
- 仿真环境
- 动力学模型
- 端到端自动驾驶
- Multi-Agent System多智能体系统
- 自动驾驶系统
- ArduPilot
- PX4
- FMT国产开源自驾仪 基于模型的设计Model Based Design