Hadoop是一个开源的分布式存储和分布式计算框架,主要用于处理大量非结构化或半结构化的数据。它最初是由Apache基金会开发的,灵感来自于Google的MapReduce和GFS(Google文件系统)论文。Hadoop的核心是Hadoop Distributed File System(HDFS,Hadoop分布式文件系统)和MapReduce编程模型, ......
187
0
0
2024-02-01
在接口自动化工作中,经常需要处理文字识别的任务,而OCR(Optical Character Recognition,光学字符识别)库能够帮助我们将图像中的文字提取出来。Python中有几个常用的OCR库,包括pyocr、pytesseract和python- tesseract、EasyOCR。本文将对它们进行比较,并提供一些示例代码来演示它们在实际接口自 ......
205
0
0
2024-02-01
Tokenizer分词算法是NLP大模型最基础的组件,基于Tokenizer可以将文本转换成独立的token列表,进而转换成输入的向量成为计算机可以理解的输入形式。本文将对分词器进行系统梳理,包括分词模型的演化路径,可用的工具,并手推每个tokenizer的具体实现。速览根据不同的切分粒度可以把tokenizer分为: 基于词的切分,基于字的切分和基于sub ......
223
0
0
2024-01-31
1、测网速,选择最佳服务器在现代数字化时代,拥有快速的互联网连接是至关重要的。为了确保您始终能够享受最佳的网络性能,我们向您介绍了一个功能强大的脚本。该脚本不仅可以测量上传和下载速度,还提供了一个智能函数——get_best_server,它可以自动为您选择最佳的服务器。这一功能对于客户端和多服务器模式都非常实用,能够保障您的网络连接始终保持高效。# pip ......
172
0
0
2024-01-27
前言「当前教程使用的playwright版本为1.37.0,selenium版本为3.141.0」本文预计阅读时长:25min官方文档:https://playwright.dev/python/docs/screenshotsplaywright各类截图源码阅读通过阅读源码:playwright -> sync_api -> _generate ......
273
0
0
2024-01-27
执行流程「注:请先阅读作者的README.md文档https://gitee.com/yu_xiao_qi/pytest-auto-api2/blob/master/README.md」本文很长:建议对PytestAutoApi开源框架确实有在学习的小伙伴阅读。框架主要是基于 Python + pytest + allure + log + yaml + m ......
185
0
0
2024-01-27
前言本篇内容为学习七月大佬开源框架PytestAutoApi记录的相关知识点,供大家学习探讨项目地址:https://gitee.com/yu_xiao_qi/pytest-auto-api2「阅读本文前,请先对该框架有一个整体学习,请认真阅读作者的README.md文件。」此文成文于2023.04.13ast.literal_eval()参考文章:http ......
196
0
0
2024-01-27
python文字图像识别PaddleOCRPaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库,助力开发者训练出更好的模型,并应用落地。国产之光,「百度开源的paddle ocr」开源地址:https://github.com/PaddlePaddle/PaddleOCR官方电子书:https://github.com/PaddlePaddle/P ......
190
0
0
2024-01-27
[AI测试]python文字图像识别tesseract七夕了,咱来学点知识!github官网:https://github.com/tesseract-ocr/tesseractpython版本:https://github.com/madmaze/pytesseractOCR,即Optical Character Recognition,光学字符识别,是指 ......
240
0
0
2024-01-27
公众号:尤而小屋 作者:Peter 编辑:Peter大家好,我是Peter~本文的主题:机器学习建模的超参数调优。开局一张图:文章很长,建议直接收藏~一、什么是机器学习超参数?机器学习超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。超参数是在模型训练之外设置的选项,不会在训练过程中被优化或更改。相反,需要在训练之前手动设置它们,并且对模 ......
201
0
0
2024-01-21
前言在编程语言中,文件读写是最常见的IO操作,Python内置了读写文件的函数,其中包括open()函数、os.open()函数以及with open()语句。本文将详细介绍这三种方法的使用方式、区别和最佳实践。open()open()函数是Python内置的用于打开文件的函数,它接受一个文件路径和打开模式作为参数,并返回一个文件对象。下面是一个示例:fil ......
213
0
0
2024-01-21
当使用Python进行开发时,pip是一个非常有用的包管理工具,它可以帮助我们方便地安装、升级和管理Python包。本文将介绍一些常用的pip命令,以帮助您更好地使用pip。查看帮助文档运行pip --help运行这个命令将帮助我们更好地了解pip的使用,pip命令的参数会完整展示出来,如下:pip --help Usage: pip <c ......
181
0
0
2024-01-21
Pandas的query函数为我们提供了一种编写查询过滤条件更简单的方法,特别是在的查询条件很多的时候,在本文中整理了10个示例,掌握着10个实例你就可以轻松的使用query函数来解决任何查询的问题。首先,将数据集导入Pandasimport pandas as pd df = pd.read_csv("Dummy_Sales_Data_v1.csv") ......
205
0
0
2024-01-19
在没有外网的情况下,安装Python环境只能采用离线方式。Windows离线安装PythonPython离线安装包的下载地址:https://www.python.org/ftp/python/我选择的是:python-3.8.5-amd64.exe双击运行安装包即可完成安装。安装完成后添加环境变量:D:\Python3.8.5\ D:\Python3.8 ......
274
0
0
2024-01-14
本文介绍基于Python中的gdal模块,对大量长时间序列的栅格遥感影像文件,绘制其每一个波段中、若干随机指定的像元的时间序列曲线图的方法。在之前的文章Python GDAL绘制遥感影像时间序列曲线中,我们就已经介绍过基于gdal模块,对大量多时相栅格图像,批量绘制像元时间序列折线图的方法。不过当时文章中的需求,每1个时相都对应着3个不同的遥感影像文件,而每 ......
180
0
0
2024-01-14