Nodejs Buffer的使用及Stream流和事件机制详解

JavaScript/前端
269
0
0
2023-06-02
标签   NodeJs
目录
  • 前言
  • Buffer 使用
  • Buffer 拼接
  • 编码问题
  • 拼接的正确姿势
  • 文件读取
  • 性能
  • 在网络中的应用
  • 流 Stream
  • 管道 pipe()
  • EventEmitter
  • 总结

前言

昨天我们讲述了 Buffer类 的基础用法,今天我们介绍一下 Buffer类 的一些应用以及 流(Stream) 的概念和用法。

Buffer 使用

Buffer 拼接

Buffer 在使用时,通常是以一段一段的方式传输。以下是一段经典的从输入流中读取内容的代码:

const fs = require("fs");
// const readFs = fs.createReadStream("./readExam.md", {
//   highWaterMark: 1
// });
const readFs = fs.createReadStream("./readExam.md");
let data = "";
readFs.on("data", (chunk) => {
    data += chunk;
});
readFs.on("end", () => {
    console.log("buffer value: ", data);
});

💡 data事件中获取的 chunk对象Buffer对象String对象,然后与 data变量 拼接成目标 Buffer对象。

上述的代码中我们构造了一个可读流。值得一提的是,可读流有一个设置编码的方法:

readable.setEncoding(encoding);

该方法能指定 data事件 中传递的元素的编码类型,避免发生一些特殊的错误:

const readFs = fs.createReadStream("./readExam.md");
readFs.setEncoding('utf-8');

编码问题

在不设置 highWaterMark 属性的情况下,你无需显示地去调用 setEncoding 方法,data事件默认就能接受字符串或者 Buffer 对象两种参数。但你仍需注意,目前仅支持 UTF8UTF16LE 两种编码的字符串,所以如果读取的目标文件是其他编码的,打印结果将会是乱码!

💡 假设每读取一个Buffer就会触发一次data事件,那么无论如何设置编码,触发data事件的次数依旧相同。也就是说,如果你读的文件中内容是汉字,要触发三次data事件才会进行一次拼接。因此在这种情况下中文会出现乱码。

而在调用setEncoding()时,可读流对象在内部设置了一个decoder对象。每次data事件都通过该decoder对象进行Buffer到字符串的解码,然后传递给调用者。而decoder内部是会对是否为宽字节进行判断,从而进行转码。

拼接的正确姿势

正确的拼接方式是用一个数组来存储接收到的所有Buffer片段并记录下所有片段的总长度,然后调用Buffer.concat() 方法生成一个合并的Buffer对象。

const fs = require("fs");
const readFs = fs.createReadStream("./readExam.md");
let chunks = [];
let size = 0;
readFs.on("data", (chunk) => {
  const chunkBuf = new Buffer.from(chunk);
  chunks.push(chunkBuf);
  size += chunkBuf.length;
});
readFs.on("end", () => {
  const buf = Buffer.concat(chunks, size);
  const str = buf.toString(); // 对应编码方式,如果不支持则需要引入外部库
})

文件读取

💡 Nodejs 提供了一个通过 Buffer 读取文件的方法 fs.readFile(),可以简化读取文件的操作。同时该方法还有 Sync 模式,及它的同步方法,返回一个Buffer对象。

但是注意,由于V8的内存限制,你无法通过 fs.readFile()fs.writeFile() 直接对大文件进行字符串操作,而需改用 fs.createReadStream()fs.createWriteStream() 方法通过流的方式实现对大文件的操作。具体请参考接下来的 Stream 的介绍。

而如果不需要进行字符串层面的操作,则不需要借助V8来处理,只进行纯粹的Buffer操作,这不会受到V8堆内存的限制,只会受到电脑物理内存的限制。

性能

Buffer 的使用除了与字符串的转换有性能损耗外,在文件的读取时,有一个highWaterMark设置对性能的影响至关重要。其默认值为64KB。

fs.createReadStream()的工作方式是在内存中准备一段Buffer内存,然后在fs.read()读取时逐步从磁盘中将字节复制到Buffer内存中。完成一次读取时,则从这个Buffer中通过slice()方法取出部分数据作为一个小Buffer对象,再通过data事件传递给调用方。如果Buffer用完,则重新分配一个;如果还有剩余,则继续使用。而每次读取的长度就是户指定的 highWaterMark ,在合理范围内,该值越大,读取速度越快。

fs.createReadStream(path, [options])

💡 最开始我们将 highWaterMark 设置为 1 ,然后读取中文出现乱码也是这个原因

在网络中的应用

在Web应用中,字符串转换到Buffer是时时刻刻发生的,提高字符串到Buffer的转换效率,可以很大程度地提高网络吞吐率。因此,Nodejs内部会通过预先转换静态内容为Buffer对象缓存着,以减少CPU的重复使用,节省服务器资源。

const http = require('http');
const HOST = "127.0.0.1";
const PORT = 6869;
const server = http.createServer();
server.listen({
  port: PORT,
  host: HOST
}, () => {
  console.log(`server listen on `, server.address());
});
let resData = "";
for (let i = 0; i < 1024*10; i++) {
  resData += "a";
}
// resData = new Buffer.from(resData);
// 监听客户端发起的 request 
server.on('request', (req, res) => {
  console.log('connect success!\n');
  res.writeHead(200);
  res.end(resData);
})
server.on('clientError', (err, socket) => {
  socket.end('HTTP/1.1 400 Bad Request\r\n\r\n');
});

💡 你无需显示地调用18行代码。

流 Stream

Nodejs 中原生内置的 stream模块 用于处理流式数据,许多核心模块都在其内部实现了流操作。流还适用于网络传输、JSON解析器、RFC(远程调用)等。Stream 继承自 EventEmitter,具备基本的自定义事件功能,同时抽象出标准的事件和方法它拥有四个抽象类:

  • Readable:可读流,读取底层的I/O数据源。
  • Writeable:可写流,将数据写入到目标中。
  • Duplex:双工流,即可读也可写。
  • Transform:转换流,会修改数据的双工流。

管道 pipe()

在可读流中,有一个管道方法:pipe(),它的作用是关联可读流与可写流,让数据通过管道从可读流进入到可写流中。pipe()方法能接收一个Writable对象,并返回对目标流的引用,从而可形成链式调用。

你可以用这个方法改写之前的案例:

const fs = require('fs');
const readable = fs.createReadStream('./origin.txt');
const writable = fs.createWriteStream('./target.txt');
readable.pipe(writable);
const fs = require("fs");
const readFs = fs.createReadStream("./readExam.md");
const writeFs = fs.createWriteStream("./outExam.md");
// 1.writ+end
readFs.on("data", (chunk) => {
    // writeFs.write(chunk);
});
readFs.on("end", () => {
  // writeFs.end();
})
// 2.pipe
readFs.pipe(writeFs);

💡 之前我们提到的内存限制,是因为V8本身是有内存限制的,而通过

EventEmitter

Nodejs 的事件模块目前只包含一个 EventEmitter类(即事件触发器),所有能触发事件的对象都是 EventEmitter类 的实例。EventEmitter 通常被用作基类,在 Nodejs 内部,凡是提供事件机制的模块都会继承它。

声明了一个EventEmitter实例,on()方法用于注册监听器,emit()方法用于触发事件。在调用emit()方法时,传递了自定义的type参数。

const EventEmitter = require('events');
class MyEmitter extends EventEmitter {}
const myEmitter = new MyEmitter();
myEmitter.on('click', (type) => {
  console.log(`触发${type}事件`);
});
myEmitter.emit('click', "点击");

💡 可注册多个相同名称的事件,监听器会按照添加顺序依次调用。事件模块还提供了很多其它方法,例如 off() 用于解除事件绑定,once() 可以只监听一次事件。