一、vim编辑器
1.命令模式
vim故障
二.生物信息学常见的数据格式
1.fasta:一种基于文本用于表示核酸序列或多肽序列的格式。缩写为 fa
特征: 两部分, id行和序列行. - id行:以“>”开头, 有时候会包含注释信息,如 chr1、chr2 ... - 序列行:一个字母表示一个碱基/氨基酸,ATCGN 或 20种氨基酸
2.fastq:一种保存生物序列(通常为核酸序列)及其测序质量得分信息的 文本格式。FASTQ文件中,一个序列通常由四行组成: • 第一行:以 @ 开头,之后为序列的标识符以及描述信息 • 第二行:为序列信息,如 ATCG
• 第三行:以 + 开头,之后可以再次加上序列的标识及描述信息(保留行)
• 第四行:为碱基质量值,与第二行的序列相对应,长度必须与第二行相同
3.gff:基因注释文件,共九列
4.gtf:基因注释文件 ,总共有 9 列
补充:
cat file |tr -s ' ' |sponge file #一步实现file的修改,不用sponge就得先生成中间文件再用mv覆盖
三、三驾马车
1.grep:文本搜索
-r后必须跟文件夹,不能跟pattern
-v 过滤掉含pattern的行
-e 当有多个pattern时,先cat file一个多个关键词的文件,然后用-f file来实现多个pattern一次性的筛选
正则表达式:
是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
2.sed:流编辑器,一般用来对文本进行增删查改
s:中的s代表行数
实现不同行的替换
修改/www行的ee为EE
sed可以实现打印和修改一步完成
练习题:
如何得到单行互补序列?如何得到多行互补序列?
3.awk:编程语言,可对文本和数据进行处理
如何进行四舍五入:+0.5
四、linux常见符号及其含义
五、常见报错
找不到文件:多使用tab键
没有权限:chmod
命令不存在:可以用tab键补齐