将Excel作為數據源,将數據導入數據庫,是SSIS的一個簡單的應用,下圖是示例Excel,數據列是code和name
第一部分,Excel中的數據類型是數值類型
1,使用SSDT創建一個package,創建Excel data source component,SSDT會在Connection Managers中創建一個Excel的connection
由于示例Excel的首行是列名,所以需要勾選"First row has column names",Excel connection manager 如下
2,數據源組件将Excel中的數據讀取出來,并傳遞給其他組件,數據源組件其實是有輸入和輸出的,輸入是指将Excel的數據導入到數據源組件中,輸出是指将數據源組件中導入的Excel數據向下傳遞。
打開數據源組件的Advanced editor,通過Show Advanced Editor來打開
在Input and Output Properties選項卡中,External columns是Excel數據源組件的輸入列,Output Columns是Excel數據源組件的輸出列,每一列都是有DataType和CodePage。
默認情況下,SSIS的Excel連接器将Excel中的數字作為數值類型來對待
對于External columns,可以根據實際需要修改DataType和CodePage,對于數值類型,不需要關注CodePage,但是對于字符類型,CodePage就必須匹配,否則package在run時就會fail。
由于示例Excel的兩列的值都是數字,SSIS默認設置DataType為數值類型,對于DataType,雖然可以修改,但是數據源組件并不負責DataType的轉換,如果External columns 和Output Columns的DataType不相同,run的時候會抛出error。如果需要convert DataType,需要使用Data Conversion 組件。
3,在db中創建接收Excel數據的表tbExcel,數據類似是Nvarchar,接收的數據是數值型,這樣并不會報錯。
create table dbo.tbExcel
(
code nvarchar(10),
name nvarchar(10)
)
4,創建一個Oledb數據目标組件,打開Advanced Editor,看到Ole db Destination Input 也有兩個:
External columns:是DB中的目标表的數據列及其屬性信息,本例是指 tbExcel 表的列和屬性
Input Columns:是上遊數據源組件傳遞的數據列及其屬性信息
5,設置數據源組件和數據目标組件的列的mapping,execute package,成功導入13 rows 數據
第二部分,将Excel中的數據類型修改為文本類型
6,如果Excel source 中的數據是文本類型,實現起來必須考慮CodePage。
修改示例Excel,将name列修改為文本類型
7,将Db中的目标表做修改,将數據列修改為varchar
if object_id('dbo.tbExcel') is not null
drop table dbo.tbExcel
create table dbo.tbExcel
(
code varchar(10),
name varchar(10)
)
8,在execute package的過程中,ssis抛出錯誤信息,也就是說Excel中的文本使用的數據類型是unicode 的,而varchar并不是unicode,所以必須進行轉換,在package中加入Data converion組件進行轉換
===================================
Package Validation Error (Package Validation Error)
===================================
Error at Data Flow Task [OLE DB Destination [166]]: Column "name" cannot convert between unicode and non-unicode string data types.
Error at Data Flow Task [SSIS.Pipeline]: "OLE DB Destination" failed validation and returned validation status "VS_ISBROKEN".
Error at Data Flow Task [SSIS.Pipeline]: One or more component failed validation.
Error at Data Flow Task: There were errors during task validation.
(Microsoft.DataTransformationServices.VsIntegration)
9,execute package,仍然出錯,錯誤原因是Code Page 不匹配,在數據傳遞的過程中,不能将code page為1252的數據傳遞到codepage為936的目标表中
Error at Data Flow Task [OLE DB Destination [203]]: The column "Copy of name" cannot be processed because more than one code page (1252 and 936) are specified for it.
下圖是Ole db Destination Input,在External columns中查看name的屬性,codepage是936,Input columns中查看name的屬性,codepage是1252
由于列 copy of name是從Data Conversion中轉換而來的,所以隻需要修改一下轉換後的數據列的CodePage就可以了。
10,設置列的mapping,再次Execute package,一路泛綠,成功導入13 rows
第三部分,一點小總結
- Excel的文本,默認的數據類型是Unicode,長度是255
- DB中的Varchar 不是unicode類型,nvarchar是unicode類型
- 如果codepage不一緻,可以通過data conversion組件進行轉換