什么是Isolate Forest?许多离群点检测方法通常先分析正常数据点,然后找出不符合正常数据模式的观测值。然而,Liu、Ting和Zhou(2008)提出的Isolate Forest(IForest)与这些方法不同。相反,IForest直接识别异常点,而不是通过分析正常数据点来发现异常值。它使用树形结构来隔离每个观测点,异常点往往是最先被挑出来的数据 ......
4
0
0
2024-09-15
主成分分析(PCA)是常用的数据分析技术,通过线性变换将一组可能相关的变量数据点转换成一组线性不相关的变量数据点。本文云朵君将解释降维技术发现离群值的原因,以及PCA如何应用于异常检测并产生离群值,最后演示如何在PyOD中使用PCA离群值分数检测异常值。PCA 如何工作?高维数据集是指包含大量变量的数据集,也称为 "维度诅咒",通常给计算带来挑战。尽管大功率 ......
8
0
0
2024-09-15
K-nearest neighbor(KNN)是机器学习中最受欢迎的算法之一,被广泛应用于监督学习和无监督学习。在监督学习中,KNN用于计算与k个邻居的距离,并可以定义离群值。而在无监督学习中,KNN也可以用于计算邻居的距离,然后定义离群值。在PyOD中,KNN算法主要用于无监督学习。本文将讨论KNN在监督学习和无监督学习中的应用以及如何定义异常点得分。更多 ......
7
0
0
2024-09-15
在机器学习和深度学习的世界中,线性回归模型是一种基础且广泛使用的算法,简单易于理解,但功能强大,可以作为更复杂模型的基础。使用PyTorch实现线性回归模型不仅可以帮助初学者理解模型的基本概念,还可以为进一步探索更复杂的模型打下坚实的基础。⚔️💡在接下来的教程中,我们将详细讨论如何使用PyTorch来实现线性回归模型,包括代码实现、参数调整以及模型优化等方面 ......
13
0
0
2024-09-11
在这个自动化时代,我们有很多重复无聊的工作要做。想想这些你不再需要一次又一次地做的无聊的事情,让它自动化,让你的生活更轻松。那么在本文中,我将向您介绍 10 个 Python 自动化脚本,以使你的工作更加自动化,生活更加轻松。因此,没有更多的重复任务将这篇文章放在您的列表中,让我们开始吧。01、解析和提取 HTML此自动化脚本将帮助你从网页 URL 中提取 ......
29
0
0
2024-09-06
基于经验累积分布的离群值检测(ECOD)是一种直观的方法,通过测量罕见事件在分布中的位置来识别异常值。ECOD首先以非参数方式估计变量的分布,然后将所有维度的估计尾部概率相乘,得出观测值的异常得分。ECOD假设变量独立,并且可以估算出每个变量的经验累积分布。虽然变量独立的假设可能过于严格,但这并不是新的假设,因为前一章中的HBOS也做了同样的假设,并且已被证 ......
50
0
0
2024-09-03
在深入探讨 PyTorch 中的 Storage 类以及其在参数 offload 场景中的应用之前,让我们首先了解一下 PyTorch 和它的基础组件。PyTorch 是一个广泛使用的开源机器学习库,它不仅提供了强大的计算图功能和自动梯度计算,还允许开发者直接操作底层数据结构,这其中就包括 Storage。1. 什么是 torch.Storage?在 PyT ......
49
0
0
2024-09-01
Python中的并发编程:多线程与多进程的比较在Python编程领域中,处理并发任务是提高程序性能的关键之一。本文将探讨Python中两种常见的并发编程方式:多线程和多进程,并比较它们的优劣之处。通过代码实例和详细的解析,我们将深入了解这两种方法的适用场景和潜在问题。多线程多线程是一种轻量级的并发处理方式,适用于I/O密集型任务。Python提供了threa ......
62
0
0
2024-08-27
如何使用Python进行数据可视化:Matplotlib和Seaborn指南数据可视化是数据科学和分析中不可或缺的一部分,而Python中的Matplotlib和Seaborn库为用户提供了强大的工具来创建各种可视化图表。本文将介绍如何使用这两个库进行数据可视化,并提供一些实用的代码示例和解析。安装Matplotlib和Seaborn首先,确保你已经安装了M ......
63
0
0
2024-08-25
The Ultimate Guide to Writing Functions 1.视频 https://www.youtube.com/watch?v=yatgY4NpZXE 2.代码 https://github.com/ArjanCodes/2022-funcguidePython高质量函数编写指南1. 一次做好一件事from dataclasses ......
75
0
0
2024-08-25
01剪贴板管理器你是否曾发现自己忙于处理多个文本片段,而忘记了自己复制了什么?有没有想过有一个工具可以记录你一天中复制的所有内容?这个自动化脚本可以监控你复制的所有内容,将复制的每个文本无缝地存储在一个时尚的图形界面中,这样你就不必在无尽的标签页中搜索,也不会丢失一些有价值的信息。该自动化脚本利用Pyperclip库的强大功能无缝捕获复制数据,并集成了Tki ......
69
0
0
2024-08-25
本教程将向您介绍 Python 集合(Set)以及如何使用它们。译自 What Are Python 'Sets' and How Do You Use Them?,作者 Jack Wallen。Python 集合(Set)是一种可迭代、可变且不可重复的数据类型。此数据类型非常方便。例如,你需要存储员工 ID 的信息。你肯定不希望这些 ID 在应用程序中重复 ......
79
0
0
2024-08-24
数据科学中的Python:NumPy和Pandas入门指南数据科学是当今数字时代中的一个重要领域,而Python是数据科学家们最喜爱的编程语言之一。在这篇博客中,我们将介绍Python中两个强大的库——NumPy和Pandas,它们在数据处理和分析中发挥着重要作用。NumPy简介NumPy是用于科学计算的基础包,提供了高性能的多维数组对象(numpy.nda ......
80
0
0
2024-08-21
Streamlit是一个流行且强大的基于Python的开源框架,允许你快速轻松地创建交互式数据科学仪表板并部署机器学习模型。Streamlit的一个有用功能是颜色选择器工具。这使你可以通过让用户选择任何颜色,而不是使用默认的硬编码颜色,为你的仪表板添加灵活性。这个简短的教程将向你展示如何在仪表板内部轻松实现Streamlit颜色选择器小部件。如果你是第一次接 ......
79
0
0
2024-08-18
一.运算符1.算术运算符运算符描述实例(设变量a=10,b=20)+加 , 两个对象相加a + b 输出结果 30-减 , 得到负数或是一个数减去另一个数a - b 输出结果 -10*乘 , 两个数相乘或是返回一个被重复若干次的字符串a * b 输出结果 200/除 , x除以yb / a 输出结果 2%取模 , 返回除法的余数b % a 输出结果 0**幂 ......
112
0
0
2024-08-02