二、农村电商大数据关键技术
(一)大数据采集
农产品电商数据采集就是对数据进行端到端的抽取、转换、加载到目的端的操作,也称为ETL操作,它是数据分析生命周期中重要的一个环节,通过传感器、射频技术、APP数据、质量监管部门提供的数据等方式获取数据。由于数据非常复杂,需要一些采集工作进行事先处理,将数据加载到制定的数据库中。
(二)大数据预处理
通常大数据平台采集的数据较为复杂,可以认为是“脏”数据,比如缺少属性值或者仅仅包含聚集数据等,因此需要对数据进行预处理,常见的数据预处理包含如下几种方式:一是数据清洗,用来对数据进行降噪,或者对错误数据进行纠正。二是数据集成,将采集到的数据进行统一处理和存储。三是数据归约,通过聚集、删除冗余的数据降低数据存储空间。四是数据变化,把数据压缩到一个较小的范围或者区间。
(三)大数据存储
大数据的存储需要特定的设备,其具备高效率、高吞吐量、高运算、高空间的特点。为了能够快速、稳定存储有极大差别的数据,至少得磁盘阵列,同时也得通过分布式的方式将不同区域、类别、级别的数据存放于不同的磁盘阵列中。[4]在分布式存储系统中包含多个自主的处理单元,通过彼此之间的协作来完成分配的任务,其主要包含两类存储系统,分布式文件系统、分布式键值系统。
(四)大数据挖掘与分析
数据分析与数据挖掘的目的就是在海量数据之中挖掘出其内在的关联或者规律信息进行二次利用。其按内容可分为可视化分析与数据挖掘算法两大类,常见的算法有岭回归、决策树、Lasso、随机森林、神经网络和线性回归等。电子商务网站从点击量、浏览历史和行为中实时发现顾客即时购物的意图和喜欢的产品,并根据这些数据进行推送商品,这就是数据块的价值,也是大数据的应用所在。