简单购训练数据标注系统的设计与实现

 2022-03-30 08:03

论文总字数:27585字

摘 要

人工智能的发展使得企业对于标注数据的需求日益增加,同时,标注数据的质量又直接影响着机器学习的效果,所以如何能在保证质量的前提下获得大量的标注数据对于生产人工智能产品的公司来说是一个亟待解决的问题。除了数量与质量外,作为企业级的产品,如何节约资源,减低成本更是一大核心问题。针对以上问题,本项目设计并实现了一款应用于图像标注领域,为各人工智能公司、团队以及个人提供图像标注服务的软件系统。

本项目的软件系统分为前端和后端两部分,前端使用HTML5、css3等新标准,以及基于JavaScript的react框架开发高性能响应式的web界面,以及实现图片在线标注等核心功能。后端用java语言springboot架构开发,对业务系统提供的接口使用http api接口,训练任务标注打分接口使用gRPC实现,使用阿里云oss云存储技术管理存储标注图像以及标注标注,在此基础上使用MySQL关系型数据库管理用户信息以及图像信息。

本项目迄今已完成了所有功能模块的设计、开发以及测试,可提供原始图像管理、多模式/类型图像标注、标注结果自动评分、标注数据后台管理等功能。同时,平台采用分权限管理策略,针对不同的使用者分配不同权限。标注需求发起者可以管理员身份登录,完成原始图像上传、标注任务分发、标注任务完成情况与完成质量在线监控。标注人员以普通人员身份登录,可以在线完成标注培训、受领标注任务、标注图像、管理个人信息。性能方面,本项目采用开放式网络架构,能够流畅支持多角色、多人员、多任务、跨地域同时在线作业,可有效解决成本、效率、质量等多重问题。相较于目前广泛采用后台人工手动检查标注数据有效性问题,平台提供了自动评分系统,可实现标注完自动检查,极大地提高了标准数据生成效率。

关键词:标注数据、机器学习、在线作业、自动评分

ABSTRACT

The development of artificial intelligence has made enterprises increasingly demand for labeling data. At the same time, the quality of labeling data directly affects the effect of machine learning. So how can we obtain a large amount of labeling data under the premise of ensuring quality for companies producing artificial intelligence products? It is an urgent problem to be solved. In addition to quantity and quality, as an enterprise-level product, how to save resources and reduce costs is a core issue. In response to the above problems, the project designed and implemented a software system for image labeling services for various artificial intelligence companies, teams and individuals.

The software system of this project is divided into two parts: front end and back end. The front end uses new standards such as HTML5 and css3, and the JavaScript-based react framework to develop high-performance responsive web interface and core functions such as online annotation of images. The back end is developed with the java language springboot architecture. The interface provided by the business system uses the http api interface, the training task labeling interface is implemented using gRPC, and the Alibaba Cloud oss ​​cloud storage technology is used to manage the storage annotation images and labeling, and MySQL is used on this basis. The relational database manages user information as well as image information.

The project has completed the design, development and testing of all functional modules to date, providing original image management, multi-mode/type image annotation, automatic scoring of annotation results, and data management of the data. At the same time, the platform adopts a sub-rights management strategy to assign different permissions to different users. The labeling requirement initiator can log in as an administrator, complete the original image uploading, labeling the task distribution, marking the task completion status and completing the quality online monitoring. Marking personnel log in as ordinary people, can complete the marking training online, receive the marked tasks, mark images, and manage personal information. In terms of performance, the project adopts a development-oriented network architecture, which can smoothly support multi-role, multi-person, multi-task, and cross-regional simultaneous online operations, and can effectively solve multiple problems such as cost, efficiency, and quality. Compared with the current manual manual inspection of the validity of the annotation data, the platform provides an automatic scoring system, which can realize automatic inspection after labeling, which greatly improves the efficiency of standard data generation.

 

KEY WORDS: Label Data, Machine Learning, Online Jobs, Automatic Scoring

目 录

摘 要 2

ABSTRACT 3

第一章 绪论 1

1.1项目背景 1

1.1.1机器学习 1

1.1.2数据标注 1

1.1.3问题阐述 2

1.2项目概述 3

1.2.1项目简介 3

1.2.2项目价值 3

1.3文章结构 3

第二章 基础知识 5

2.1 SPA(Single Page web Application) 5

2.2 React框架 6

2.3 gRPC技术 6

2.4 oss对象存储技术 7

第三章 需求分析 8

3.1账号类别说明 8

3.1.1超级管理员账号 8

3.1.2普通管理员账号 8

3.1.3标注人员账号 8

3.2用户管理功能 8

3.2.1超级管理员后台管理 9

3.2.2普通管理员后台管理 9

3.2.3标注人员个信息管理 9

3.3标注训练功能 9

3.4任务分配功能 10

3.5数据标注功能 10

3.6标注评分功能 10

3.7用户结算功能 11

3.7.1标注人员结算 11

3.7.2超级管理员提现管理 11

3.8支付标准与操作界面管理功能 11

3.9性能分析 12

3.9.1标注过程流畅性 12

3.9.2评分算法准确率 12

第四章 设计与实现 14

4.1项目设计 14

4.1.1架构设计 14

4.1.2功能流程设计 15

4.2项目开发环境及应用部署 20

4.2.1基础架构类模块 20

4.2.2 编译说明 21

4.2.3 部署配置 21

4.3数据标注模块 22

4.3.1模块结构 22

4.3.2代码实现 23

第五章 项目测试 29

5.1功能测试 29

5.1.1用户管理功能 29

5.1.2标注训练功能 31

5.1.3任务分配功能 33

5.1.4数据标注功能 33

5.1.5标注评分功能 35

5.1.6用户结算功能 36

5.1.7支付标准与操作说明管理 37

5.2性能测试 38

5.2.1标注过程流畅性 38

5.2.2评分算法准确率 39

第六章 总结与展望 41

6.1项目总结 41

6.2项目特色 41

6.2.1多角色、多用户、多任务与跨地域在线作业 41

6.2.2标注结果自动评分 42

6.3项目展望 42

参考文献 43

致 谢 44

第一章 绪论

1.1项目背景

本项目源于北京极智无限科技有限公司的简单购智能零售平台项目。智能零售平台旨在打造智能零售生态闭环,即依托大数据、人工智能等技术实现无人配送、智能补货、智能贩售这一新零售产业结构[1]。其中图像识别技术为核心技术,对于人工智能识别技术的发展来讲,其中图像识别功能相比于语音识别功能发展时期较晚,同时在应用的难度上也相对较大,主要是因为图像识别具有较强的丰富性和普遍性[2],为实现高效的人工智能图像识别技术,公司着手开发线上训练数据标注平台,从而获得大量有效的图像标注数据。

1.1.1机器学习

人工智能的应用场景十分广泛,概括来讲,人工智能的应用可以理解为通过一定的技术手段使机器具有能够部分代替人类的认知能力。学习是人类所具有的一项重要的智能行为,人类通过学习获得对于事物的认知。由此可见,让机器获得能够取代人类的部分认知功能,核心任务便是让机器具备一定的学习能力,即机器学习。机器学习是人工智能产品的核心技术,通过机器学习,人工智能产品才具有能够独立工作的智能,即机器学习是实现人工智能的基石。机器学习从形式上可以大体可以分为两类:监督学习和非监督学习,除此之外还有介于两者之间的半监督学习[3]

1.1.2数据标注

机器学习类比于人类学习,学习知识需要有知识的来源,人类可以从书本,影像资料或是知识更加丰富的人处进行学习,对于机器来说,机器进行学习的来源就是数据。

假设人要认识苹果,对于学习者来说并不是见到苹果就可以,在见到苹果的同时,要建立起苹果这一事物与“苹果”这两个字的映射关系,即满足这个特征的事物称为“苹果”。同理机器学习也是如此,机器对于原始的数据是不存在认知这一过程的,所以要对机器学习所用到的数据进行标注,这一过程的目的等同于以上过程中,告诉学习者苹果这一事物叫做“苹果”。

剩余内容已隐藏,请支付后下载全文,论文总字数:27585字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;