目录
- 前言
- Buffer 使用
- Buffer 拼接
- 编码问题
- 拼接的正确姿势
- 文件读取
- 性能
- 在网络中的应用
- 流 Stream
- 管道 pipe()
- EventEmitter
- 总结
前言
昨天我们讲述了 Buffer类
的基础用法,今天我们介绍一下 Buffer类 的一些应用以及 流(Stream)
的概念和用法。
Buffer 使用
Buffer 拼接
Buffer 在使用时,通常是以一段一段的方式传输。以下是一段经典的从输入流中读取内容的代码:
const fs = require("fs");
// const readFs = fs.createReadStream("./readExam.md", {
// highWaterMark: 1
// });
const readFs = fs.createReadStream("./readExam.md");
let data = "";
readFs.on("data", (chunk) => {
data += chunk;
});
readFs.on("end", () => {
console.log("buffer value: ", data);
});
💡 data事件中获取的 chunk对象
是 Buffer对象
或 String对象
,然后与 data变量
拼接成目标 Buffer对象。
上述的代码中我们构造了一个可读流。值得一提的是,可读流有一个设置编码的方法:
readable.setEncoding(encoding);
该方法能指定 data事件 中传递的元素的编码类型,避免发生一些特殊的错误:
const readFs = fs.createReadStream("./readExam.md");
readFs.setEncoding('utf-8');
编码问题
在不设置 highWaterMark
属性的情况下,你无需显示地去调用 setEncoding
方法,data事件默认就能接受字符串或者 Buffer 对象两种参数。但你仍需注意,目前仅支持 UTF8
和 UTF16LE
两种编码的字符串,所以如果读取的目标文件是其他编码的,打印结果将会是乱码!
💡 假设每读取一个Buffer就会触发一次data事件,那么无论如何设置编码,触发data事件的次数依旧相同。也就是说,如果你读的文件中内容是汉字,要触发三次data事件才会进行一次拼接。因此在这种情况下中文会出现乱码。
而在调用setEncoding()时,可读流对象在内部设置了一个decoder对象。每次data事件都通过该decoder对象进行Buffer到字符串的解码,然后传递给调用者。而decoder内部是会对是否为宽字节进行判断,从而进行转码。
拼接的正确姿势
正确的拼接方式是用一个数组来存储接收到的所有Buffer片段并记录下所有片段的总长度,然后调用Buffer.concat()
方法生成一个合并的Buffer对象。
const fs = require("fs");
const readFs = fs.createReadStream("./readExam.md");
let chunks = [];
let size = 0;
readFs.on("data", (chunk) => {
const chunkBuf = new Buffer.from(chunk);
chunks.push(chunkBuf);
size += chunkBuf.length;
});
readFs.on("end", () => {
const buf = Buffer.concat(chunks, size);
const str = buf.toString(); // 对应编码方式,如果不支持则需要引入外部库
})
文件读取
💡 Nodejs 提供了一个通过 Buffer 读取文件的方法 fs.readFile()
,可以简化读取文件的操作。同时该方法还有 Sync
模式,及它的同步方法,返回一个Buffer对象。
但是注意,由于V8的内存限制,你无法通过 fs.readFile()
和 fs.writeFile()
直接对大文件进行字符串操作,而需改用 fs.createReadStream()
和 fs.createWriteStream()
方法通过流的方式实现对大文件的操作。具体请参考接下来的 Stream 的介绍。
而如果不需要进行字符串层面的操作,则不需要借助V8来处理,只进行纯粹的Buffer操作,这不会受到V8堆内存的限制,只会受到电脑物理内存的限制。
性能
Buffer 的使用除了与字符串的转换有性能损耗外,在文件的读取时,有一个highWaterMark
设置对性能的影响至关重要。其默认值为64KB。
fs.createReadStream()
的工作方式是在内存中准备一段Buffer内存,然后在fs.read()读取时逐步从磁盘中将字节复制到Buffer内存中。完成一次读取时,则从这个Buffer中通过slice()方法取出部分数据作为一个小Buffer对象,再通过data事件传递给调用方。如果Buffer用完,则重新分配一个;如果还有剩余,则继续使用。而每次读取的长度就是户指定的 highWaterMark
,在合理范围内,该值越大,读取速度越快。
fs.createReadStream(path, [options])
💡 最开始我们将 highWaterMark
设置为 1 ,然后读取中文出现乱码也是这个原因
在网络中的应用
在Web应用中,字符串转换到Buffer是时时刻刻发生的,提高字符串到Buffer的转换效率,可以很大程度地提高网络吞吐率。因此,Nodejs内部会通过预先转换静态内容为Buffer对象缓存着,以减少CPU的重复使用,节省服务器资源。
const http = require('http');
const HOST = "127.0.0.1";
const PORT = 6869;
const server = http.createServer();
server.listen({
port: PORT,
host: HOST
}, () => {
console.log(`server listen on `, server.address());
});
let resData = "";
for (let i = 0; i < 1024*10; i++) {
resData += "a";
}
// resData = new Buffer.from(resData);
// 监听客户端发起的 request
server.on('request', (req, res) => {
console.log('connect success!\n');
res.writeHead(200);
res.end(resData);
})
server.on('clientError', (err, socket) => {
socket.end('HTTP/1.1 400 Bad Request\r\n\r\n');
});
💡 你无需显示地调用18行代码。
流 Stream
Nodejs 中原生内置的 stream模块
用于处理流式数据,许多核心模块都在其内部实现了流操作。流还适用于网络传输、JSON解析器、RFC(远程调用)等。Stream
继承自 EventEmitter
,具备基本的自定义事件功能,同时抽象出标准的事件和方法它拥有四个抽象类:
- Readable:可读流,读取底层的I/O数据源。
- Writeable:可写流,将数据写入到目标中。
- Duplex:双工流,即可读也可写。
- Transform:转换流,会修改数据的双工流。
管道 pipe()
在可读流中,有一个管道方法:pipe(),它的作用是关联可读流与可写流,让数据通过管道从可读流进入到可写流中。pipe()方法能接收一个Writable对象,并返回对目标流的引用,从而可形成链式调用。
你可以用这个方法改写之前的案例:
const fs = require('fs');
const readable = fs.createReadStream('./origin.txt');
const writable = fs.createWriteStream('./target.txt');
readable.pipe(writable);
const fs = require("fs");
const readFs = fs.createReadStream("./readExam.md");
const writeFs = fs.createWriteStream("./outExam.md");
// 1.writ+end
readFs.on("data", (chunk) => {
// writeFs.write(chunk);
});
readFs.on("end", () => {
// writeFs.end();
})
// 2.pipe
readFs.pipe(writeFs);
💡 之前我们提到的内存限制,是因为V8本身是有内存限制的,而通过
EventEmitter
Nodejs 的事件模块目前只包含一个 EventEmitter类
(即事件触发器),所有能触发事件的对象都是 EventEmitter类 的实例。EventEmitter 通常被用作基类,在 Nodejs 内部,凡是提供事件机制的模块都会继承它。
声明了一个EventEmitter实例,on()方法用于注册监听器,emit()方法用于触发事件。在调用emit()方法时,传递了自定义的type参数。
const EventEmitter = require('events');
class MyEmitter extends EventEmitter {}
const myEmitter = new MyEmitter();
myEmitter.on('click', (type) => {
console.log(`触发${type}事件`);
});
myEmitter.emit('click', "点击");
💡 可注册多个相同名称的事件,监听器会按照添加顺序依次调用。事件模块还提供了很多其它方法,例如 off()
用于解除事件绑定,once()
可以只监听一次事件。