linux 进阶

Linux系统
393
0
0
2023-04-21

一、vim编辑器

1.命令模式

img

img

img

vim故障

img

img

二.生物信息学常见的数据格式

1.fasta:一种基于文本用于表示核酸序列或多肽序列的格式。缩写为 fa

特征: 两部分, id行和序列行. - id行:以“>”开头, 有时候会包含注释信息,如 chr1、chr2 ... - 序列行:一个字母表示一个碱基/氨基酸,ATCGN 或 20种氨基酸

2.fastq:一种保存生物序列(通常为核酸序列)及其测序质量得分信息的 文本格式。FASTQ文件中,一个序列通常由四行组成: • 第一行:以 @ 开头,之后为序列的标识符以及描述信息 • 第二行:为序列信息,如 ATCG

• 第三行:以 + 开头,之后可以再次加上序列的标识及描述信息(保留行)

• 第四行:为碱基质量值,与第二行的序列相对应,长度必须与第二行相同

3.gff:基因注释文件,共九列

img

4.gtf:基因注释文件 ,总共有 9 列

img

补充:

cat file |tr -s ' ' |sponge file #一步实现file的修改,不用sponge就得先生成中间文件再用mv覆盖

三、三驾马车

1.grep:文本搜索

img

-r后必须跟文件夹,不能跟pattern

-v 过滤掉含pattern的行

-e 当有多个pattern时,先cat file一个多个关键词的文件,然后用-f file来实现多个pattern一次性的筛选

正则表达式:

是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。

img

img

2.sed:流编辑器,一般用来对文本进行增删查改

img

img

imgs:中的s代表行数

img实现不同行的替换

img修改/www行的ee为EE

imgsed可以实现打印和修改一步完成

练习题:

如何得到单行互补序列?如何得到多行互补序列?

3.awk:编程语言,可对文本和数据进行处理

img

img

img

img

img

img

img

img

img

如何进行四舍五入:+0.5

四、linux常见符号及其含义

img

五、常见报错

img

找不到文件:多使用tab键

没有权限:chmod

命令不存在:可以用tab键补齐

img