利用机器学习技术进行图像识别

贾江微
2022-06-18 18:33:37 4

+关注

图像识别技术可以应用于多种场景，例如人脸识别和字符识别等。本文将介绍如何通过编程实现手写数字的识别，主要使用Python及其相关库，如numpy和PIL。

首先，我们会加载一张手写数字的图像，并将其转换为矩阵形式以便进行处理。以下是代码示例：

```python

导入所需库

from PIL import Image import numpy as np

加载图像

i = Image.open('images/dot.png')

将图像转换为矩阵形式

iar = np.array(i)

打印矩阵

print(iar) ```

这段代码会读取图像文件并将其转换为矩阵，方便后续处理。接着，我们会展示图像矩阵的一部分。

接下来，我们使用matplotlib库来展示图像：

```python import matplotlib.pyplot as plt

加载图像

i = Image.open('images/dotndot.png')

转换为矩阵形式

iar = np.array(i)

显示图像

plt.imshow(iar) plt.show() ```

计算机在识别图像时会遇到各种挑战，如图像模糊、褪色或变形。为了简化图像识别过程，我们可以通过设定阈值来处理图像。阈值可以将图像简化为黑白两色，从而降低识别难度。

下面是设定阈值的示例代码：

```python def threshold(imageArray): balanceAr = [] newAr = imageArray for eachRow in imageArray: for eachPix in eachRow: avgNum = reduce(lambda x, y: x + y, eachPix[:3]) / len(eachPix[:3]) balanceAr.append(avgNum)

balance = reduce(lambda x, y: x + y, balanceAr) / len(balanceAr)

for eachRow in newAr:
    for eachPix in eachRow:
        if reduce(lambda x, y: x + y, eachPix[:3]) / len(eachPix[:3]) > balance:
            eachPix[0] = 255
            eachPix[1] = 255
            eachPix[2] = 255
            eachPix[3] = 255
        else:
            eachPix[0] = 0
            eachPix[1] = 0
            eachPix[2] = 0
            eachPix[3] = 255
return newAr

载入图像并转换为矩阵

i = Image.open('images/numbers/0.1.png') iar = np.array(i) threshold(iar) ```

通过阈值处理，图像被转换为黑白两色，大大降低了图像识别的复杂度。接下来，我们可以通过存储图像数据来训练模型，以便识别新的图像。

以下是创建图像数据集的示例代码：

```python def createExamples(): numberArrayExamples = open('numArEx.txt', 'a') numbersWeHave = range(0, 10) versionsWeHave = range(1, 10)

for eachNum in numbersWeHave:
    for eachVer in versionsWeHave:
        imgFilePath = 'images/numbers/' + str(eachNum) + '.' + str(eachVer) + '.png'
        ei = Image.open(imgFilePath)
        eiar = np.array(ei)
        eiar1 = str(eiar.tolist())

        lineToWrite = str(eachNum) + '::' + eiar1 + 'n'
        numberArrayExamples.write(lineToWrite)

创建图像数据集

createExamples() ```

最后，我们编写一个函数来对比新图像与已有图像数据集中的图像，以识别新图像中的数字：

```python def whatNumIsThis(filePath): matchedAr = [] loadExamps = open('numArEx.txt', 'r').read() loadExamps = loadExamps.split('n')

i = Image.open(filePath)
iar = np.array(i)
iarl = iar.tolist()

inQuestion = str(iarl)

for eachExample in loadExamps:
    try:
        splitEx = eachExample.split('::')
        currentNum = splitEx[0]
        currentAr = splitEx[1]

        eachPixEx = currentAr.split('],')
        eachPixInQ = inQuestion.split('],')

        x = 0
        while x < len(eachPixEx):
            if eachPixEx[x] == eachPixInQ[x]:
                matchedAr.append(int(currentNum))
            x += 1
    except Exception as e:
        print(str(e))

print(matchedAr)
x = Counter(matchedAr)
print(x)
print(x[0])

使用新图像进行识别

whatNumIsThis('images/numbers/y0.3.png') ```

通过以上步骤，我们可以识别图像中的数字。此外，还可以使用机器学习工具如scikit-learn来进一步提高识别精度。例如，使用支持向量机（SVM）进行分类：

```python import matplotlib.pyplot as plt from sklearn import datasets from sklearn import svm

加载数据集

digits = datasets.load_digits()

定义SVM分类器

clf = svm.SVC(gamma=0.001, C=100)

训练数据集

X, y = digits.data[:-40], digits.target[:-40] clf.fit(X, y)

预测新数据

print('Prediction:', clf.predict(digits.data[-42])) plt.imshow(digits.images[-42], cmap=plt.cm.gray_r, interpolation='nearest') plt.show() ```

以上就是手写数字识别的完整流程，包括数据预处理、阈值设定、数据集创建和模型训练。希望这些内容对你有所帮助。

图灵汇

责任编辑：：贾江微

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

识别图像机器利用进行学习技术

lxx1994x

2022-06-19

导入所需库

加载图像

将图像转换为矩阵形式

打印矩阵

加载图像

转换为矩阵形式

显示图像

载入图像并转换为矩阵

创建图像数据集

使用新图像进行识别

加载数据集

定义SVM分类器

训练数据集

预测新数据

「掌上计算机视觉大有可为」智能终端图像识别、美化、生成应用盘点