using DataFrames
dfO = DataFrame(ORDER = [1,1,1,1,2,2,3,4,5,5,5],
    SKU = [1,2,3,4,1,3,1,2,3,4,5],
    QTY = [5,3,2,6,4,1,2,2,1,12,6])


nrow(dfO)

11


@doc Dict

Dict([itr])

jldoctest
julia> Dict([("A", 1), ("B", 2)])
Dict{String, Int64} with 2 entries:
  "B" => 2
  "A" => 1

jldoctest
julia> Dict("A"=>1, "B"=>2)
Dict{String, Int64} with 2 entries:
  "B" => 2
  "A" => 1


dp = Dict()
dp[:Total_Lines] = nrow(dfO)
dp

Dict{Any, Any} with 1 entry:
  :Total_Lines => 11


dfO[!,:ORDER]

11-element Vector{Int64}:
 1
 1
 1
 1
 2
 2
 3
 4
 5
 5
 5


unique(dfO[!,:ORDER])

5-element Vector{Int64}:
 1
 2
 3
 4
 5


length(unique(dfO[!,:ORDER]))

5


dp[:Total_Lines]/length(unique(dfO[!,:ORDER]))

2.2


dp[:Lines_per_Order] = dp[:Total_Lines]/length(unique(dfO[!,:ORDER]))
dp

Dict{Any, Any} with 2 entries:
  :Total_Lines     => 11
  :Lines_per_Order => 2.2


dfIM = DataFrame(SKU = [1,2,3,4,5],
    LENGTH = [5,3,8,4,6],
    WIDTH = [3,2,6,4,4],
    DEPTH = [2,4,5,3,5],
    CUBE = [30,24,180,32,120],
    WEIGHT = [1.25,4.75,9.65,6.35,8.2],
    UOM = ["EA","EA","CA","EA","CA"])


df = innerjoin(dfO,dfIM,on=:SKU)


describe(df)


df.CUBE[df.ORDER.==1]

4-element Vector{Int64}:
  30
  24
 180
  32


df.QTY[df.ORDER.==1].*df.CUBE[df.ORDER.==1]

4-element Vector{Int64}:
 150
  72
 360
 192


sum(df.QTY[df.ORDER.==1].*df.CUBE[df.ORDER.==1])

774


[sum(df.QTY[df.ORDER.==i].*df.CUBE[df.ORDER.==i]) for i in unique(df.ORDER)]

5-element Vector{Int64}:
  774
  300
   60
   48
 1284


using Statistics
mean([sum(df.QTY[df.ORDER.==i].*df.CUBE[df.ORDER.==i]) for i in unique(df.ORDER)])

493.2


gdf = groupby(df,:ORDER)


[i for i in gdf]

5-element Vector{SubDataFrame{DataFrame, DataFrames.Index, Vector{Int64}}}:
 4×9 SubDataFrame
 Row │ ORDER  SKU    QTY    LENGTH  WIDTH  DEPTH  CUBE   WEIGHT   UOM    
     │ Int64  Int64  Int64  Int64   Int64  Int64  Int64  Float64  String 
─────┼───────────────────────────────────────────────────────────────────
   1 │     1      1      5       5      3      2     30     1.25  EA
   2 │     1      2      3       3      2      4     24     4.75  EA
   3 │     1      3      2       8      6      5    180     9.65  CA
   4 │     1      4      6       4      4      3     32     6.35  EA
 2×9 SubDataFrame
 Row │ ORDER  SKU    QTY    LENGTH  WIDTH  DEPTH  CUBE   WEIGHT   UOM    
     │ Int64  Int64  Int64  Int64   Int64  Int64  Int64  Float64  String 
─────┼───────────────────────────────────────────────────────────────────
   1 │     2      1      4       5      3      2     30     1.25  EA
   2 │     2      3      1       8      6      5    180     9.65  CA
 1×9 SubDataFrame
 Row │ ORDER  SKU    QTY    LENGTH  WIDTH  DEPTH  CUBE   WEIGHT   UOM    
     │ Int64  Int64  Int64  Int64   Int64  Int64  Int64  Float64  String 
─────┼───────────────────────────────────────────────────────────────────
   1 │     3      1      2       5      3      2     30     1.25  EA
 1×9 SubDataFrame
 Row │ ORDER  SKU    QTY    LENGTH  WIDTH  DEPTH  CUBE   WEIGHT   UOM    
     │ Int64  Int64  Int64  Int64   Int64  Int64  Int64  Float64  String 
─────┼───────────────────────────────────────────────────────────────────
   1 │     4      2      2       3      2      4     24     4.75  EA
 3×9 SubDataFrame
 Row │ ORDER  SKU    QTY    LENGTH  WIDTH  DEPTH  CUBE   WEIGHT   UOM    
     │ Int64  Int64  Int64  Int64   Int64  Int64  Int64  Float64  String 
─────┼───────────────────────────────────────────────────────────────────
   1 │     5      3      1       8      6      5    180     9.65  CA
   2 │     5      4     12       4      4      3     32     6.35  EA
   3 │     5      5      6       6      4      5    120     8.2   CA


[i.QTY for i in gdf]

5-element Vector{SubArray{Int64, 1, Vector{Int64}, Tuple{Vector{Int64}}, false}}:
 [5, 3, 2, 6]
 [4, 1]
 [2]
 [2]
 [1, 12, 6]


[i.QTY.*i.CUBE for i in gdf]

5-element Vector{Vector{Int64}}:
 [150, 72, 360, 192]
 [120, 180]
 [60]
 [48]
 [180, 384, 720]


[sum(i.QTY.*i.CUBE) for i in gdf]

5-element Vector{Int64}:
  774
  300
   60
   48
 1284


mean([sum(i.QTY.*i.CUBE) for i in gdf])

493.2


dp[:Cube_per_Order] = mean([sum(i.QTY.*i.CUBE) for i in gdf])
dp

Dict{Any, Any} with 3 entries:
  :Total_Lines     => 11
  :Lines_per_Order => 2.2
  :Cube_per_Order  => 493.2


gdf = groupby(df,:SKU)


combine(gdf,:QTY => sum)


skudf = combine(gdf,:QTY => sum => :Flow_per_Item)


combine(gdf,nrow)


skudf = innerjoin(skudf,combine(gdf,nrow => :Lines_per_Item),on=:SKU)


[sum(i.QTY.*i.CUBE) for i in gdf]

5-element Vector{Int64}:
 330
 120
 720
 576
 720


combine(gdf,[:QTY,:CUBE] => ((i,j) -> sum(i.*j)))


skudf = innerjoin(skudf,
    combine(gdf,[:QTY,:CUBE] => ((x,y) -> sum(x.*y)) => :Cube_Movement),on=:SKU)


dp[:SKU] = skudf
dp

Dict{Any, Any} with 4 entries:
  :Total_Lines     => 11
  :SKU             => 5×4 DataFrame…
  :Lines_per_Order => 2.2
  :Cube_per_Order  => 493.2


dp[:SKU]


dp[:SKU].Flow_per_Item

5-element Vector{Int64}:
 11
  5
  4
 18
  6

dfO


order, item = dfO.ORDER, dfO.SKU
order = indexin(order,unique(order))        # Index from 1 to m
item = indexin(item,unique(item))           # Index from 1 to n
m = maximum(order)                          # Number of orders
Order = [Int64[] for i=1:m]                 # Create empty array of integer arrays
for (i,j) in zip(order,item)
    push!(Order[i],j)
end
Order

5-element Vector{Vector{Int64}}:
 [1, 2, 3, 4]
 [1, 3]
 [1]
 [2]
 [3, 4, 5]


n = maximum(item)                           # Number of items
W = zeros(n,n)
for o in Order, i = 1:length(o[1:end-1]), j in o[i+1:end]
    W[o[i],j] += 1
end
W /= m

5×5 Matrix{Float64}:
 0.0  0.2  0.4  0.2  0.0
 0.0  0.0  0.2  0.2  0.0
 0.0  0.0  0.0  0.4  0.2
 0.0  0.0  0.0  0.0  0.2
 0.0  0.0  0.0  0.0  0.0


dp[:DC] = W
dp

Dict{Any, Any} with 5 entries:
  :Total_Lines     => 11
  :SKU             => 5×4 DataFrame…
  :DC              => [0.0 0.2 … 0.2 0.0; 0.0 0.0 … 0.2 0.0; … ; 0.0 0.0 … 0.0 …
  :Lines_per_Order => 2.2
  :Cube_per_Order  => 493.2


using DataFrames,CSV
data = """
ORDER,SKU,QTY
1,1,5
1,2,3
1,3,2
1,4,6
2,1,4
2,3,1
3,1,2
4,2,2
5,3,1
5,4,12
5,5,6
6,,
6,1,
6,4,6
7,,12
7,3,
"""
dfO = DataFrame(CSV.File(IOBuffer(data)))


describe(dfO)


dropmissing!(dfO,:SKU)


dfO.QTY[dfO.SKU.==1]                                  # Just looking at SKU 1

4-element Vector{Union{Missing, Int64}}:
 5
 4
 2
  missing


mean(dfO.QTY[dfO.SKU.==1])                            # Result of mean is missing

missing


mean(skipmissing(dfO.QTY[dfO.SKU.==1]))               # Skip missing values in mean calc

3.6666666666666665


Int(round(mean(skipmissing(dfO.QTY[dfO.SKU.==1]))))   # Replacement value for SKU 1

4


ismissing.(dfO.QTY)                                   # Looking at all SKUs with missing QTY

14-element BitVector:
 0
 0
 0
 0
 0
 0
 0
 0
 0
 0
 0
 1
 0
 1


idx = findall(ismissing.(dfO.QTY))

2-element Vector{Int64}:
 12
 14


for i in idx
    dfO[i,:QTY] = Int(round(mean(skipmissing(dfO.QTY[dfO.SKU.==dfO[i,:SKU]]))))
end
dfO

ML 1: Data Wrangling¶

1. Tabular Data¶

Ex 1: Array vs. Tabular Representations¶

2. Table Joins and Split-Apply-Combine Strategy¶

Ex 2: Activity Profiling¶

Total Lines (11)¶

Examples¶

Lines per Order (2.2)¶

Cube per Order (493.2)¶

Flow per Item (11 for SKU A,5 for SKU B,...)¶

Lines per Item (3 for SKU A,2 for SKU B,...)¶

Cube Movement (330 for SKU A,120 for SKU B,...)¶

Demand Correlation¶

3. Missing Data: Dropping vs. Imputation¶

Ex 3: Add Orders with Missing Data to Ex 2¶

	ORDER	SKU	QTY
	Int64	Int64	Int64
1	1	1	5
2	1	2	3
3	1	3	2
4	1	4	6
5	2	1	4
6	2	3	1
7	3	1	2
8	4	2	2
9	5	3	1
10	5	4	12
11	5	5	6

	variable	mean	min	median	max	nmissing	eltype
	Symbol	Union…	Any	Union…	Any	Int64	DataType
1	ORDER	2.72727	1	2.0	5	0	Int64
2	SKU	2.63636	1	3.0	5	0	Int64
3	QTY	4.0	1	3.0	12	0	Int64
4	LENGTH	5.36364	3	5.0	8	0	Int64
5	WIDTH	3.90909	2	4.0	6	0	Int64
6	DEPTH	3.63636	2	4.0	5	0	Int64
7	CUBE	78.3636	24	32.0	180	0	Int64
8	WEIGHT	5.73636	1.25	6.35	9.65	0	Float64
9	UOM		CA		EA	0	String

	ORDER	SKU	QTY
	Int64	Int64?	Int64?
1	1	1	5
2	1	2	3
3	1	3	2
4	1	4	6
5	2	1	4
6	2	3	1
7	3	1	2
8	4	2	2
9	5	3	1
10	5	4	12
11	5	5	6
12	6	missing	missing
13	6	1	missing
14	6	4	6
15	7	missing	12
16	7	3	missing

var1	var2	var3
A	a	1
A	b	2
B	a	3
B	b	4