一、vim编辑器

1.命令模式

vim故障

二.生物信息学常见的数据格式

1.fasta：一种基于文本用于表示核酸序列或多肽序列的格式。缩写为 fa

特征: 两部分, id行和序列行. - id行:以“>”开头, 有时候会包含注释信息，如 chr1、chr2 ... - 序列行:一个字母表示一个碱基/氨基酸，ATCGN 或 20种氨基酸

2.fastq:一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。FASTQ文件中，一个序列通常由四行组成: • 第一行:以 @ 开头，之后为序列的标识符以及描述信息 • 第二行:为序列信息，如 ATCG

• 第三行:以 + 开头，之后可以再次加上序列的标识及描述信息(保留行)

• 第四行:为碱基质量值，与第二行的序列相对应，长度必须与第二行相同

3.gff：基因注释文件，共九列

4.gtf：基因注释文件，总共有 9 列

补充：

cat file |tr -s ' ' |sponge file #一步实现file的修改，不用sponge就得先生成中间文件再用mv覆盖

三、三驾马车

1.grep：文本搜索

-r后必须跟文件夹，不能跟pattern

-v 过滤掉含pattern的行

-e 当有多个pattern时，先cat file一个多个关键词的文件，然后用-f file来实现多个pattern一次性的筛选

正则表达式：

是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

2.sed:流编辑器，一般用来对文本进行增删查改

s：中的s代表行数

实现不同行的替换

修改/www行的ee为EE

sed可以实现打印和修改一步完成

练习题：

如何得到单行互补序列？如何得到多行互补序列？

3.awk：编程语言，可对文本和数据进行处理

如何进行四舍五入：+0.5

四、linux常见符号及其含义

五、常见报错

找不到文件：多使用tab键

没有权限：chmod

命令不存在：可以用tab键补齐

linux 进阶