主要的分享内容如下:第一部分是学习路线与经验分享,以自身新手小白的入门之路进行分享关于生物信息学数据分析的学习经验与科研经历。第二部分是小麦多组学数据分析工具的简介与使用(Linux 服务器、R 语言、python、数据结构、编程逻辑)、群体遗传学、全基因组关联分析、序列分析与处理、R 语言科研绘图、统计分析与显著性检验、候选基因分析、QTL 整理分析、TidyGWAS 批量结果整理算法、生物信息学数据库开发与搭建、在线分析工具的开发、云计算服务器的特性与使用技巧。第三部分是具体的实际案例,包括 NILtools 近等基因系工具、GeneHAP 单倍型工具、WGS 重测序分析工具、Transer Version 转换工具等,最后再提供一些干货资料和书籍推荐。
阶段一:生物信息学基础(2-3 个月)
核心课程
cd
, ls
, grep
)、Python 基础(变量、循环、函数)资源推荐
阶段二:小麦多组学数据分析(3-6 个月)
工具学习
:
filter
, group_by
)merge
, concat
)实战项目
:
x# 查看当前目录文件
ls -lh
# 解压压缩文件
tar -zxvf data.tar.gz
# 进程管理
top # 实时监控进程
kill -9 12345 # 终止进程
xxxxxxxxxx
from Bio import SeqIO
# 统计FASTA文件序列长度
with open("sequence.fasta") as handle:
for record in SeqIO.parse(handle, "fasta"):
print(len(record.seq))
工具学习
filter
筛选特定条件的基因、group_by
按染色体分组计算基因表达平均值等操作。Align.PairwiseAligner()
进行全局比对和局部比对,以及如何解析比对结果;Pandas 数据处理,通过合并多个基因注释文件,展示merge
函数的使用方法,以及如何使用concat
函数将不同实验条件下的表达数据合并。实战项目
DESeqDataSetFromMatrix()
创建数据集,如何进行标准化处理,如何进行差异表达分析,以及如何对结果进行可视化,如绘制热图、MA 图等。
GWAS 流程
--maf 0.05 --geno 0.1
)。详细解释每个参数的含义,如--maf 0.05
表示最小等位基因频率小于 0.05 的 SNP 将被过滤掉,因为这些 SNP 可能是由于测序错误或罕见变异导致的;--geno 0.1
表示缺失率大于 0.1 的 SNP 将被过滤掉,因为缺失率过高会影响分析结果的准确性。pophelper
对分析结果进行可视化,如绘制群体结构条形图。候选基因分析
此部分主要内容是个人简要感悟
个人邮箱: zhaojiwen@nwafu.edu.cn 或 admin@filll.cn
个人网站:www.filll.cn
微信公众号:生信分析笔记