读取文件时的"大坑"(python的scanpy库)

之前没有安装scanpy库，可以进行如下操作进行安装：

pip install scanpy -i https://pypi.tuna.tsinghua.edu.cn/simple

如果之前有安装过了，就不必在进行安装了!

"探坑"

单细胞实例数据txt文件的下载地址：https://ftp.ncbi.nlm.nih.gov/geo/samples/GSM5101nnn/GSM5101014/suppl/GSM5101014%5FPt1%5FSuperficial%5FCountMatrix.txt.gz

我已经把这个文件下载好了并放在C:/Users/my/Desktop/data目录下，现在开始读取txt文件!

那我们来看看是什么样的一个大坑，代码如下：

 
#导入scanpy库
import scanpy as sc
#读取GSE数据库的单细胞示例数据txt文件
data_1=sc.read_text('C:/Users/my/Desktop/data/GSM5101014_Pt1_Superficial_CountMatrix.txt.gz')
#查看数据
print(data_1)

结果如下：


AnnData object with n_obs × n_vars = 32738 × 2315

表明看上去是不是很正常，没什么奇怪的啊！别急，我们继续往下走：

 
#读取scanpy的内置数据集pbmc68k_reduced
data_2=sc.datasets.pbmc68k_reduced()
#查看内置数据
print(data_2)

pbmc68k_reduced是一个scanpy开发者已经处理过的示例数据集，我们读取这个数据集后得到的是一个正常的AnnData数据对象，我们可以用它来作为参考。

我们查看代码结果的第一行，如下：


AnnData object with n_obs × n_vars = 700 × 765

表明看上去是不是也很正常，没什么奇怪的啊！但是，恭喜你已经成功地不知不觉入坑了，哈哈！

是不是觉得很奇怪，没事，等会你就会看到大坑了。

注意，上面的data_1是我们的从GEO数据库下载并使用read_text()进行读取得到的Anndata数据对象，而data_2是读取scanpy的内置数据后的正常Anndata数据对象，两者不要混淆。

我们先查看正常AnnData数据对象的obs信息，继续往下走：

 
#先查看正常AnnData数据对象的obs信息
print(data_2.obs)

结果如下：

 
                      bulk_labels  n_genes  ...  phase  louvain
index                                       ...                
AAAGCCTGGCTAAC-1   CD14+ Monocyte     1003  ...     G1        1
AAATTCGATGCACA-1        Dendritic     1080  ...      S        1
AACACGTGGTCTTT-1         CD56+ NK     1228  ...     G1        3
AAGTGCACGTGCTA-1  CD4+/CD25 T Reg     1007  ...    G2M        9
ACACGAACGGAGTG-1        Dendritic     1178  ...     G1        2
                           ...      ...  ...    ...      ...
TGGCACCTCCAACA-8        Dendritic     1166  ...     G1        2
TGTGAGTGCTTTAC-8        Dendritic     1014  ...     G1        1
TGTTACTGGCGATT-8  CD4+/CD25 T Reg     1079  ...      S        0
TTCAGTACCGGGAA-8          CD19+ B     1030  ...      S        4
TTGAGGTGGAGAGC-8        Dendritic     1552  ...     G1        2

可以看出obs是一个关于存储细胞信息的地方，也许这样不太明显，我们再贴一张图进一步说明：

我们看红框这一列，存储所有样本的细胞。

我们再来查看使用**read_text()**读取后的AnnData数据对象的obs信息：

 
#使用read_text()读取后的AnnData数据对象的obs信息
print(data_1.obs)

结果如下：

这时，聪明的你是不是已经发现了不同之处，恭喜你，已经看到了大坑，我们看红框里面的字样，这不就是一个个基因名称，基因信息怎么保存到存储细胞信息的地方了呀!

我们再查看正常AnnData数据对象的var信息，继续往下走：

 
#查看正常AnnData数据对象的var信息
print(data_2.var)

结果如下：

 
            n_counts     means  dispersions  dispersions_norm  highly_variable
index                                                                         
HES4     1153.387451  0.592365     2.028047          2.771764             True
TNFRSF4   304.358154  0.193332     1.760724          2.746426             True
SSU72    2530.272705  1.019981     1.208284         -0.631160            False
PARK7    7451.664062  1.828078     1.288261         -0.544716            False
RBP7      272.811035  0.174943     1.842789          3.192285             True
              ...       ...          ...               ...              ...
SUMO3    2008.512939  0.878592     1.412841          0.174762            False
ITGB2    7413.487793  1.823767     1.596550         -0.137714            False
S100B     645.737549  0.373296     2.331789          5.554084             True
PRMT2    2062.443848  0.894168     1.273153         -0.375588            False
MT-ND3   1214.914185  0.615929     1.265916         -0.326537            False

可以看出var是一个关于存储基因信息的地方，也许这样不太明显，我们再贴一张图进一步说明：

我们看这两个红框，可以看出var存储的是有关基因的信息。

我们再查看使用read_text()读取后的AnnData数据对象的var信息，继续往下走：

 
#使用read_text()读取后的AnnData数据对象的var信息
print(data_1.var)

结果如下:

是不是有点怪呀？用来存储基因信息的地方却来存储细胞信息，这不是颠倒黑白吗？

我们进入官网的read_text()查看有没有相关介绍，地址：https://scanpy.readthedocs.io/en/latest/generated/scanpy.read_text.html#scanpy.read_text，经过一番查找，没有相关具体信息说明呀！如果有知道的小伙伴，可以在留言区告诉下，在此谢过！

总结

正常AnnData数据对象的obs用来存储细胞信息，var用来存储基因信息。在使用scanpy的read_text()进行读取txt文件时，要注意了哦！你已经入坑了，这个函数会使用obs来存储基因信息，而用var来存储细胞信息，而造成阴阳颠倒，如果你使用这个颠倒的AnnData数据对象去进行后续的数据分析，那各种麻烦也会随之而来。

注意：如果你使用的scanpy的其他的读取文件函数进行读取不同格式的文件，一定要小心了哦，一定要查看读取后Anndata的obs是不是存储细胞信息，var是不是存储基因信息！

"填坑"

如果你也使用scanpy的read_text()这个函数来读取txt文件，或使用scanpy别的读文件函数读取别的格式文件，读取后的AnnData也出现上述的这种情况，别慌！既然有坑，当然要填坑了，继续往下走：

 
#填坑补救措施
data_1=data_1.T

这时的data_1就变成了一个正常的AnnData数据对象了。不信，我们可以查看一下它的obs，继续往下走：


print(data_1.obs)

结果如下:

 
Columns: []
Index: [AAACCTGAGCGTTTAC-1, AAACCTGCAATCGGTT-1, AAACCTGCATACCATG-1, AAACCTGGTTCCACGG-1, AAACCTGTCACATGCA-1, AAACCTGTCACGCGGT-1, AAACCTGTCCAATGGT-1, AAACCTGTCCCTAACC-1, AAACGGGAGAGTACCG-1, AAACGGGAGCGATTCT-1, AAACGGGAGTCTCAAC-1, AAACGGGCATGCAACT-1, AAACGGGTCCGCAGTG-1, AAACGGGTCTAAGCCA-1, AAAGATGAGCAGACTG-1, AAAGATGAGTACGTAA-1, AAAGATGCATGCCTAA-1, AAAGATGGTTCAGTAC-1, AAAGCAAAGCATGGCA-1, AAAGCAAAGGCCCGTT-1, AAAGCAAGTCGACTAT-1, AAAGCAAGTTACGTCA-1, AAAGCAAGTTATGCGT-1, AAAGTAGAGACAATAC-1, AAAGTAGAGTGCGTGA-1, AAAGTAGCATCCGGGT-1, AAAGTAGTCAACGAAA-1, AAAGTAGTCGGAAACG-1, AAATGCCAGTCCGGTC-1, AAATGCCGTCCGTTAA-1, AAATGCCGTGTGCCTG-1, AAATGCCTCGAACGGA-1, AAATGCCTCGCCATAA-1, AACACGTAGAGTGACC-1, AACACGTAGTCGAGTG-1, AACACGTGTATCGCAT-1, AACCATGAGCCCAGCT-1, AACGTTGAGACAAAGG-1, AACGTTGAGACACGAC-1, AACGTTGCACAAGCCC-1, AACGTTGGTAGGACAC-1, AACGTTGGTAGGGACT-1, AACGTTGGTCTTCAAG-1, AACTCAGCAATAGAGT-1, AACTCAGCAGATAATG-1, AACTCAGGTCAGATAA-1, AACTCAGGTGCAGACA-1, AACTCCCAGAAGCCCA-1, AACTCCCAGACTAGAT-1, AACTCTTAGTGCGATG-1, AACTCTTCAGCTTCGG-1, AACTCTTCAGGACCCT-1, AACTCTTGTCAATGTC-1, AACTCTTGTGTAAGTA-1, AACTGGTAGATCCCAT-1, AACTGGTTCGTCGTTC-1, AACTGGTTCTAACGGT-1, AACTTTCAGAAACGCC-1, AACTTTCAGGGAACGG-1, AACTTTCAGTTAGGTA-1, AACTTTCGTGGACGAT-1, AACTTTCTCATCTGCC-1, AAGACCTAGATAGGAG-1, AAGACCTAGGCACATG-1, AAGACCTCAAGCCCAC-1, AAGACCTGTAGCTCCG-1, AAGACCTTCTACTCAT-1, AAGCCGCGTGAGCGAT-1, AAGCCGCTCGGAGGTA-1, AAGGAGCTCCAAAGTC-1, AAGGCAGGTAAATGAC-1, AAGGCAGGTACCCAAT-1, AAGGCAGGTACTCTCC-1, AAGGCAGGTGAGTATA-1, AAGGTTCAGAGGTACC-1, AAGGTTCAGGATCGCA-1, AAGGTTCGTTACAGAA-1, AAGGTTCGTTGCCTCT-1, AAGGTTCTCCGAGCCA-1, AAGTCTGAGCGTCAAG-1, AAGTCTGCATCGATGT-1, AAGTCTGGTGAACCTT-1, AATCCAGAGGTTACCT-1, AATCCAGAGTCAAGGC-1, AATCCAGCAGACTCGC-1, AATCCAGGTCCGTGAC-1, AATCCAGTCCGCGCAA-1, AATCCAGTCTCAAGTG-1, AATCGGTCAAGTCATC-1, AATCGGTCACGAAGCA-1, AATCGGTCATCCCACT-1, AATCGGTGTCTTCTCG-1, AATCGGTGTTCAGGCC-1, ACACCAAAGTGATCGG-1, ACACCAATCCATGAGT-1, ACACCAATCGCATGGC-1, ACACCAATCGGAAATA-1, ACACCCTAGGCTAGCA-1, ACACCCTAGTGTACGG-1, ACACCCTCACGTGAGA-1, ...]

可以看出obs存储的都是细胞信息

我们再来查看它的var信息，继续往下走：


print(data_1.var)

结果如下：

 
Columns: []
Index: [MIR1302-10, FAM138A, OR4F5, RP11-34P13.7, RP11-34P13.8, AL627309.1, RP11-34P13.14, RP11-34P13.9, AP006222.2, RP4-669L17.10, OR4F29, RP4-669L17.2, RP5-857K21.15, RP5-857K21.1, RP5-857K21.2, RP5-857K21.3, RP5-857K21.4, RP5-857K21.5, OR4F16, RP11-206L10.3, RP11-206L10.5, RP11-206L10.4, RP11-206L10.2, RP11-206L10.9, AL669831.1, FAM87B, LINC00115, FAM41C, AL645608.2, RP11-54O7.16, RP11-54O7.1, RP11-54O7.2, RP11-54O7.3, SAMD11, AL645608.1, NOC2L, KLHL17, PLEKHN1, C1orf170, RP11-54O7.17, HES4, RP11-54O7.11, ISG15, AGRN, RP11-54O7.18, RNF223, C1orf159, RP11-465B22.5, RP11-465B22.8, TTLL10-AS1, TTLL10, TNFRSF18, TNFRSF4, SDF4, B3GALT6, FAM132A, RP5-902P8.12, UBE2J2, RP5-902P8.10, SCNN1D, ACAP3, PUSL1, CPSF3L, GLTPD1, TAS1R3, DVL1, MXRA8, AURKAIP1, CCNL2, RP4-758J18.2, MRPL20, RP4-758J18.13, ANKRD65, RP4-758J18.7, TMEM88B, RP4-758J18.10, VWA1, ATAD3C, ATAD3B, ATAD3A, TMEM240, SSU72, AL645728.1, C1orf233, RP11-345P4.9, MIB2, MMP23B, CDK11B, RP11-345P4.10, SLC35E2B, RP11-345P4.7, CDK11A, SLC35E2, NADK, GNB1, RP1-140A9.1, CALML6, TMEM52, C1orf222, RP11-547D24.1, ...]

可以看出var存储的都是基因信息

哈哈，我们通过"补救措施"把它变成了一个正常的AnnData数据对象了。

如果你在使用scanpy的读文件函数要注意哦，一定要先查看obs和var存储的是什么！如果出现我们所述的这种情况，可以通过"填坑补救措施"，把它变成一个正常AnnData数据对象哦！

我是一只单细胞小菜鸡，如果有哪些地方讲的不好或做的不好，欢迎在下方留言批评指出和纠正！您的指正是我们更新和完善的动力源泉！

	#导入scanpy库
	import scanpy as sc
	#读取GSE数据库的单细胞示例数据txt文件
	data_1=sc.read_text('C:/Users/my/Desktop/data/GSM5101014_Pt1_Superficial_CountMatrix.txt.gz')
	#查看数据
	print(data_1)

	#读取scanpy的内置数据集pbmc68k_reduced
	data_2=sc.datasets.pbmc68k_reduced()
	#查看内置数据
	print(data_2)

	#先查看正常AnnData数据对象的obs信息
	print(data_2.obs)

	bulk_labels n_genes ... phase louvain
	index ...
	AAAGCCTGGCTAAC-1 CD14+ Monocyte 1003 ... G1 1
	AAATTCGATGCACA-1 Dendritic 1080 ... S 1
	AACACGTGGTCTTT-1 CD56+ NK 1228 ... G1 3
	AAGTGCACGTGCTA-1 CD4+/CD25 T Reg 1007 ... G2M 9
	ACACGAACGGAGTG-1 Dendritic 1178 ... G1 2
	... ... ... ... ...
	TGGCACCTCCAACA-8 Dendritic 1166 ... G1 2
	TGTGAGTGCTTTAC-8 Dendritic 1014 ... G1 1
	TGTTACTGGCGATT-8 CD4+/CD25 T Reg 1079 ... S 0
	TTCAGTACCGGGAA-8 CD19+ B 1030 ... S 4
	TTGAGGTGGAGAGC-8 Dendritic 1552 ... G1 2

	#使用read_text()读取后的AnnData数据对象的obs信息
	print(data_1.obs)

	#查看正常AnnData数据对象的var信息
	print(data_2.var)

	n_counts means dispersions dispersions_norm highly_variable
	index
	HES4 1153.387451 0.592365 2.028047 2.771764 True
	TNFRSF4 304.358154 0.193332 1.760724 2.746426 True
	SSU72 2530.272705 1.019981 1.208284 -0.631160 False
	PARK7 7451.664062 1.828078 1.288261 -0.544716 False
	RBP7 272.811035 0.174943 1.842789 3.192285 True
	... ... ... ... ...
	SUMO3 2008.512939 0.878592 1.412841 0.174762 False
	ITGB2 7413.487793 1.823767 1.596550 -0.137714 False
	S100B 645.737549 0.373296 2.331789 5.554084 True
	PRMT2 2062.443848 0.894168 1.273153 -0.375588 False
	MT-ND3 1214.914185 0.615929 1.265916 -0.326537 False

	#使用read_text()读取后的AnnData数据对象的var信息
	print(data_1.var)