k-Nearest Neighbor在海量数据的情况下用什么数据结构比较好?_贵阳千锋IT培训

千锋教育-做有情怀、有良心、有品质的职业教育机构

400-811-9990

手机站

千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站

领取全套视频

千锋教育

关注千锋学习站小程序
随时随地免费学习课程

首页课程

HTML5

Java

Python

云计算

软件测试

网络安全

大数据

物联网

Unity

UI/UE设计

全媒体营销

影视剪辑

游戏原画

区块链

产品经理

商业插画

PMP认证

红帽RHCE

软考认证

华为认证

教程
HTML5视频教程 Java视频教程 Python视频教程 UI视频教程云计算视频教程软件测试视频教程大数据视频教程物联网视频教程 Unity视频教程网络安全视频教程全媒体视频教程影视剪辑视频教程
教研
教研院师资团队项目大赛
服务
企业内训高校合作学科共建
就业
就业服务双选会上门招聘人才定制
问答资讯技术干货 IT培训机构零基础学IT 关于千锋
千锋简介联系我们锋益公益大赛组织品牌活动

上海

北京
郑州
武汉
成都
西安
沈阳

广州
南京
深圳
大连
青岛
杭州
重庆

当前位置：贵阳千锋IT培训 > 技术干货 > k-Nearest Neighbor在海量数据的情况下用什么数据结构比较好?

k-Nearest Neighbor在海量数据的情况下用什么数据结构比较好?

来源：千锋教育

发布人：xqq

时间： 2023-10-14 09:40:24

一、k-Nearest Neighbor在海量数据的情况下用什么数据结构比较好

k-Nearest Neighbor在海量数据的情况下，写一条数据到flat file，A_id, B_id，就这么存。针对不同的应用场景，可以做不同的优化。要实时找到有明确距离度量，甚至可以通过分块划区降低待选点的数量级的应用场景。

同时要支持待选点的实时添加和去除。

那我觉得这种情况只有系统运维需要考虑“海量”，光从KNN来说，按层次分块划区以后，直接算都可以。

那运维那边的“海量”，更是有一大堆可做的优化。比如以一个固定点代表来自一块区域的请求。全上海几千万人一起请求最近出租车，我内部只要算几万个请求来源就行了。KNN也没必要非得是最近的，我在一定区域内随机挑，期望平均距离和最小平均距离差多少是完全可控的。

KNN算法稳定性好、准确率高、简单易用，针对大数据的分类问题，它存在着如下缺点:a)对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点，而大数据的典型特点就是数据信息海量、价值密度低，这就显然出现了很大的无效计算量，在决定测试样本的类别时，该算法只计算最近邻的样本【neighbor-weighted K-nearest neighbor for unbalanced text corpus】，而大数据的另一个显著特点是涉及领域繁多、类别界限不明显，对于此类文本容易使判决结果产生偏差;c)随着信息爆炸时代的到来，各种新的事物层出不穷，出现新的类别的概率极大，而KNN算法的邻居都是已知的类别样本，也就导致了对新样本的无知或者误判。

延伸阅读：

二、改进的KNN算法—差分多层KNN (DM-KNN)算法

针对大数据的自身特点以及KNN算法的缺点，算法主要在以下几个方而进行了改进:a)构建树状分层结构，针对KNN算法计算量比较大的缺点，本文改进后的算法采用构建树状分层结构首先对高层进行比较，然后依据高层比较结果的不同，再依次对下一层次进行比较，相比直接对所有文本进行距离计算，计算量明显减少，同时提高了运算速度;b)差分比较，由于大数据具有类域交叉性的特点，该算法不是在权重比较结束后直接进行判断，而是又针对大数据的类域交叉性进行了一次差分比较，可以有效地防止最近邻和次近邻误判的情况;c)动态增加类别，由于大数据中信息的不可预知性，该算法针对最终比较结果不能判断隶属于哪个类别的情况，在算法最后可以动态增加新类别。

声明：本站稿件版权均属千锋教育所有，未经许可不得擅自转载。

上一篇

javaoa系统有哪些模块?

下一篇

C#中List是什么数据结构?

猜你喜欢LIKE

vector容器原理是什么?

二叉树非递归遍历栈中存的是什么?

做进度计划用什么软件?

最新文章NEW

Kotlin对APP测试意味着什么?

Python有哪些常用的标准库?

哪些技术会决定前端开发者的未来发展?

相关推荐HOT

更多>>

python .pyc .pyd .pyo文件的区别?

一、python .pyc .pyd .pyo文件的区别.pyc文件类型我们首先考虑.pyc文件类型，当你导入一个模块时，解释器会自动生成.pyc文件，这样会节省下次...详情>>

2023-10-14 19:43:23

trello怎么下载?

一、前往Trello官网您需要前往Trello 官网（https://trello.com/）。在该网站的首页上，您可以看到“Sign Up”和“Log In”两个选项。如果您已...详情>>

2023-10-14 15:59:51

为什么快速排序在最坏情况下仍然要比冒泡排序快?

一、快速排序在最坏情况下仍然要比冒泡排序快的原因1、数据交换次数少在快速排序的过程中，每一次分割都能将序列划分为两个子序列，并将序列中...详情>>

2023-10-14 15:07:25

用数组或链表实现栈各有什么特点?

一、用数组或链表实现栈各有什么特点使用数组实现栈的特点：1、随机访问数组是一段连续的内存空间，可以通过索引直接访问数组中的任意元素，因...详情>>

2023-10-14 12:23:59

热门推荐

Kotlin对APP测试意味着什么?

为什么Java后端开发没有大规模采用 Kotlin?

Python有哪些常用的标准库?

哪些技术会决定前端开发者的未来发展?

主流图片加载库所使用的预解码究竟干了什么?

Java中Vector和SynchronizedList的区别?

哪些python技能—封包解包与函数参数?

python .pyc .pyd .pyo文件的区别?

列表、元组、字典、集合的区别?

云下载和本地重新安装有什么区别?

Python内置函数有哪些?

CameraX 1.1 有哪些新的特性发布?

wiki怎么编辑页面?

有什么软件像trello?

行业资讯 更多>>

怎么选全媒体运营培训机构？

大数据开发程序培训费用是多少？

参加云计算培训机构费用得多少？

如何在抖音上快速获得更多的粉丝...

技术干货

Kotlin对APP测试意味着什么?

Kotlin对APP测试意味着什么?

为什么Java后端开发没有大规模采用 Kotlin?

为什么Java后端开发没有大规模采用 Kotlin?

Python有哪些常用的标准库?

Python有哪些常用的标准库?

哪些技术会决定前端开发者的未来发展?

哪些技术会决定前端开发者的未来发展?

主流图片加载库所使用的预解码究竟干了什么?

主流图片加载库所使用的预解码究竟干了什么?

Java中Vector和SynchronizedList的区别?

Java中Vector和SynchronizedList的区别?

哪些python技能—封包解包与函数参数?

哪些python技能—封包解包与函数参数?

技术问答 在线提问>>

张同学在线提问

python 占位字符串怎么用

在Python编程中，占位字符串是一种常见的技巧...详情

刘同学在线提问

python获取文件夹内所有文件名怎么做

在Python中，你可以使用os模块来获取一个文件...详情

师资团队 更多>>

陆神

原去哪儿网高级架构师

北京大学计算机系毕业

HTML5学科教研总监

千锋威哥

OCP认证专家

15年以上开发经验

Java学科首席技术官

宋宋

原阿里后端架构师

北京邮电大学硕士

Python学科首席技术官

卢老师

北京大学博士后

北京科技大学博士

人工智能学科总监

索尔

原阿里后端架构师

浙工大计算机系毕业

Java学科高级讲师

jackfrued

曾任职华为成都研究所

计算机应用技术博士

Python学科教学主管

快速通道 更多>>

课程介绍
点击获取大纲
就业前景
查看就业薪资
学习费用
了解课程价格
优惠活动
领取优惠券
学习资源
领3000G教程
师资团队
了解师资团队
实战项目
获取项目源码
开班地区
查看来校路线

最新开班信息更多>>

网友热搜更多>>

IT行业年龄有限制吗女生学IT Java薪资待遇零基础Web培训 Python就业如何学UI设计大数据学习路线 java培训学费软件测试培训转行学Linux 网络安全基础知识网络营销培训 unity培训 30岁还能学it吗大数据技术学什么 python培训费

千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站